欢迎收听《实际英国》一档聚焦英国话题的访谈节目让我们在伦敦和你聊一聊科技 创业和生活
大家好,我是 Linda,欢迎收听《实景英国》Hello 大家好,我是 Kent《实景英国》从第一期到今天已经八个月了在过去二十七里,我们邀请了来自不同领域、不同行业的朋友一起聊聊他们在英国的故事,以及他们的观点感谢所有听友朋友对我们的支持后面呢,我们想做一些新的尝试我们第一个新的尝试呢,是做一季关于人工智能话题的 mini 系列
在后面四期,我们会邀请四位在英国从事最前沿 AI 研究的朋友来节目做客。人工智能走进公众的事业要从 2016 年英国 Deepman 公司研发的 Alphago 和世界围棋冠军李士实的人机大战开始。Alphago 以 4 比 1 战胜李士实,也是人工智能领域突破的一个重要里程碑。
作为我们 AI 系列的第一期非常荣幸邀请了 Alphago 设计师之一 Deepman 高级资深研究员陈玉天来节目做客玉天来自围棋之乡天台以台州高考理科状元考入清华大学电子工程系
后在美国加州大学欧文学院分校攻读机器学习硕士博士在加入 Deepman 之前曾任剑桥大学助理研究员玉天欢迎来我们的节目做客谢谢 Linda 谢谢 Ken 我是玉天很高兴参加这个节目玉天非常高兴你能参加我们的节目你现在是在国内是吧
对 去年因为疫情的缘故我就回国了然后在这儿 walk from home 你在哪个城市国内我在浙江浙江老家这边我当时也是去年的时候也是一起就是大家一起 lockdown 然后我们到九月多的时候就发现第二波感觉有这个苗头起来了想想不行可能冬天情况会更严重然后一很心就是十月份的时候就买了机票被回国还挺庆幸的当时做这个决定还挺正确的
那就是在这个回国之后对你这个工作上你觉得有什么影响没有,因为可能说网络啊什么的。还好吧,因为对你知道就是做用计算机的嘛,其实只要网络能连上,其他影响都不大,然后就是主要一个时差的问题,现在就是调整一下跟着英国的时间工作,其他都没什么影响的。
对英国的时期其实还好好像跟国内其实 overlap 的时间还是挺长的不像中国跟美国相对痛苦一点对都是八个小时如果跟美西时间相比那就是说我这边比如说我下午的时候是英国早上那我从下午开始工作到晚上半夜刚好是英国的白天时间所以重复的还挺好的
那天我知道你当时清华毕业之后你是先去了美国对吧读的这个硕士跟博士然后你才来的英国对的是当时怎么决定来了英国呢能给大家讲讲你的英国故事当时我是读完 PhD 嘛然后我是想在因为我当时还是想说走那个学术路线然后看看以后有没有去高校的机会所以一般的话大家都会先去考虑就先做一两个 postdoc 然后我当时收到剑桥的 offer
剑桥在 Machine Learning 这块也是非常牛的一个团队当时我也没有想太多就答应了那你是怎么又从剑桥后来加入了这个 DeepMind 呢对这个还是比较巧合的吧因为当时 DeepMind 好像也不是特别的 famous 我当时是 13 年到英国然后做了两年博士后以后到 15 年时候当时在找工作嘛
DPM 的话其实当时在在 Machine Learning 这领域的话其实他做了一些挺不错的工作就是用 DQN 的方法就 DeepQ Learning 的方法去训练神经网络来玩 Atari 的 game 但这个影响还蛮大的然后他还做了有一些很多那种 Generative Model 的方面的工作这个和我当时研究兴趣还比较一致的所以我就也是申请了
当时刚好是它被 Google 收购了它是 14 年被 Google 收购然后我是 15 年时候申请的感觉有 Google 在支撑的话应该还是比较稳定的一个工作机会吧跟公司里面当时一些人聊感觉还挺好的他们想做的一些就是这种 PN 基础研究这方面的工作虽然是在一个公司环境里面但不是那么侧重于产品方面我觉得还是一个挺好的研究环境那你最早在剑桥当时做的研究的方向是什么呀
见巧我当时做的是贝叶斯分析,然后很多那种怎么把贝叶斯模型用到大数据的一些问题,当时和 DeepMind 在做一些生成模型的一些概率模型还是有一些很多类似的地方,所以我感觉当时还是研究方向还挺 match 的。
就我比较好奇就是因为你有参与那个 AlphaGo 的这个开发就我想说当时在你加入 D-Mind 的时候其实 AlphaGo 的研究已经开始了或者说一些基础工作已经都有铺垫了是吧
对 Aquabow 项目应该最早应该是 14 年的时候开始的吧然后我当时进去的时候是 15 年 9 月份然后没过多久刚好他们已经是正好跟凡辉做了一次内部的测试当时我就是刚加入也没多久然后我们在公司里面看我是非常激动的因为我也是从小学围棋的然后也接触了人工智能知道围棋对人工智能这个问题是有多么困难
然后没想到 DeepMind 就说已经做到那么好的程度了,我是非常惊讶的,后来的话就是很感兴趣嘛,也就参与到这个研究团队里面一起工作。就你其实当时就是其实已经基本上可以预想到这个东西会是一个 big hit,就是可能一年两年之后会在这个公开场合,等于说震撼世界的这么一个发现。
在公开场合这个我之前倒不知道了但是当时能够击败就凡会是职业二段嘛然后能够就是说第一次能够击败一个职业选手这已经是一个里程碑式的一个发展了就对于游戏 AI 来说所以这个当时还是就是看到哪怕是当时的那个水平就已经是很厉害了
然后后面的话能够发展的那么快就几个月时间里面超过你实施的这水平我其实从刚进去那时候还是没有想到就是说有那么快的进展 Deepman 是一家什么样的公司其实我觉得就是虽然 AlphaGo 让 Deepman 很有名啊但好像从外面来看觉得 Deepman 还是个挺神秘的公司在里面工作什么感觉
我觉得您可以把它想象成是在 Google 的这种工作环境下面然后做一些基础研究的工作吧我觉得它是一个大学跟高校的那种混合的一个状态
因为里面的话其实有很多的那个 team lead 都是从大学里就是大学教授兼职或者全职过来的然后也带来很多就是做学术研究的那种氛围这里是非常强的但同时的话他也是因为是被 Google 收购的嘛然后
然后他有把很多 Google 一些项目管理的一些经验啊方式啊融合进去所以我觉得对于一些就是一些大项目的一些掌握的话就是可能比一个高校里面一个老师带着一个一些学生做团队可能觉得就是说经验会更多一点
就虽然是在公司体系下是吧但是它其实做研究的方向还是非常像高效这种做研究的方向但是可能更结构化的组织对它非常侧重就是基础研究就 DeepMind 的话基本上大的会分成两大块就一块是做基础研究一块是做应用的
应用化包括像给谷歌提供一些产品技术的一些知识也包括就是应用到其他一些自然科学领域如果你想是说做单纯的人工智能技术研究的话其实你都可以不用去关心就怎么把它落实到具体产品上去的这我感觉跟在谷歌还是不太一样就可以非常 focus 在一些方面的 research 上很像一个大学的环节
这些 fundamental research 最终还是要把它转成产品上面吗还是说其实完全不用考虑这个将来产品化的最终还是要的吧就 DeepMind 它的目标是两个一个是 solve AGI 然后另外一个是用 use AGI to solve everything else 其实还是两部分第一部分就是说我们首先要实现 AGI 然后第二部分的话就是说我们用 AGI 去就帮助我们改善自己生活嘛
所以最终目标还是说要把 AGI 用起来不是说单纯造出来一个就放在那了 AGI 我们等一会儿我们可以深入聊一下因为你也提到是你就是收购之后被加入了那你觉得整个 DeepMind 的文化其实是非常 Google 范儿的是吧感觉上其实也就是 Google 的一份子然后没有什么特别的还是说其实还是 DeepMind 保留了它挺多 DeepMind 自身的一些文化的东西在里面
还是有保留了很多我觉得是保留了很多 DipLine 自身的文化的因为它现在应该也释出一个就是 Alphabet 下面一个子公司的状态就不是和 Google 其实还是分开两个公司的嘛
然后 Dmine 还是比较注重说保留自己一些传统就是注重于研究方向的一些公司文化吧而且就单纯 Dmine 这个公司相对 Google 来说还是小很多公司整个就是架构还是非常扁平化的所以我觉得就是说相互不同组织之间相互交流合作都是非常的充分而且
我觉得像丁凤安的话他从一开始的时候就非常注重就 AI 研究的一些呃伦理化就是说要符合一些伦理研究这块我觉得他是特别强调的就是 responsible AI 哎那就是他怎么定义这个 responsible AI 啊
这是个好问题就是 D-MAN 它有专门一个团队叫 AI Ethics TeamAI 伦理委员会什么之类的对吧对对也有一个研究 Team 就是专门去考虑就是怎么样让 AI 研究就更符合那个原理而且我们在一般在考虑就是做自己项目的同时也会就是设计项目之前也会考虑说这个是不是会有一些 AI 一些风险在里面那如果是的话怎么样去规避就这些我们会考虑的更多一些
对,因为现在不是他们有提到说,就是比如说算法里面会有一些 bias 啊什么的。对,对,我觉得这是也不单单就是整个学术界吧,都是研究一个前沿的一个问题,而且现在随着就是机器学习,AI 在具体产品里面应用的越来越多的话,这个问题会越来越凸显出来。
你是 research scientist 是吧就是研究科学家这个能给大家稍微科普一下就是研究科学家主要做什么呀就是你如果描述你每天的工作大概是个什么样子的呀
我们有几个大的 category,一个是 research scientist,一个是 research engineer,还有一个是 software engineer,主要是这几个大的方向吧。然后一般情况下,其实 scientist 和 research engineer 一般都是在一起,工作会比较多一些,我们工作也是 project 导向的。
就是一旦制定 project 以后相互之间会配合那 scientist 的话可能会稍微更侧重一些那个比如 modeling 然后怎么样去设计算法
就考虑说怎么去做一些更好的算法能够让它有效性啊变得更好然后 research engineer 的话可能他会更擅长于就是怎么样把就是设计的算法能够放在 Google 这个整个计算框架里面让它能够更优化然后计算效率啊什么的更强有这样一个一个大致的一个分工但也不是绝对的很多 research engineer 其实他们做 research 能力非常强
所以我觉得还是更多还是看人就是你自己兴趣是想要比如说提供更好的那些技术知识还说更想要更多的 idea 然后尝试不同的方法那你肯定是喜欢更多的 idea 的对吧差不多吧其实但是在 Google 这环境下面就是说怎么样能够把一个方法用在一个 large scale 上面然后让它能够让它能够在更大的就 data 上面能跑得更好其实也是挺有意思的一个问题
对我觉得这个 Google 有很强的优势啊对吧 Google 又有那么强大的这个基础设施然后也有这么多好的数据
而且我感觉从工程的角度来讲可能这是高校没有办法去匹配的一些优势因为高校刚才你也提到可能在规模上或者说在严谨的程度上跟公司的大规模的代码的管理一些构架什么的都是没有办法比的我觉得可能这也是一个趋势我不知道你是不是这么认为 AI 的研究可能越来越趋向于高校和企业结合的这么一个模式
我觉得这是一个比较好的一个模式吧因为企业有计算资源有实际的数据有实际要解决的问题我觉得 Google 又有一些它特有的一些优势吧就是 Google 对于那个底层就是代码管理这块真的做得非常好绝大部分团队之间的代码就是你是可以直接看的然后它对一些标准化的一些要求比较好嘛然后很多代码就直接可以拿来然后重复使用这
这个我觉得在高校是很难实现的不同研究团队之间大家各用各的哪怕一个团队之间我用 TensorFlow 他用 PyTorch 这种代码附用都是非常难的所以这个我觉得就是以公司形式做一些大的研究计划方面一些统一性的话其实对于整体的一个技术积累跟发展是很重要的
对我个人非常羡慕这种状态因为我觉得我们组就是没有什么很好的代码管理你赶快去 DeepMind 申请去实习吧欢迎欢迎我知道 Google 下面还有一个 Google Brain 是吧也是做很多的这个 AI Research 跟产品那就是 DeepMind 跟 Google Brain 之间是有很多的合作吗有啊有很多合作测证会有一些不同我觉得可能 Brain 的话更注重于为 Google 提供一些技术支持吧
所以我觉得它的很多项目可能跟 Google 产品或者是 Google 的业务会有一些更多的结合。但是其实我们之间也有很多很多的那个合作,就像我们最近在做的一些就是 offline 的 reforcement learning,然后 Google brand 也有很多人在就是很感兴趣,然后我们也一起合作了很多不同的就是不同的项目。
这块我觉得不管是从 Google 还是 DeepMind 都是很支持 DeepMind 有了这个 Google 的这个背后的这个大树还是有很多帮助对我觉得 Google 对 DeepMind 的支持还是非常强的
那刚才我们有就是讲到这个 DeepMind 的这个目标就是是发展这个 AGI 或者说是通用人工智能或者说是强人工智能那我就比较好奇你们就在你们内部对这个 AGI 这个词有一个定义吗或者说你们的这个努力的研究方向或者说就你们理解中的 AGI 是什么然后你们是就是在做哪些工作往那个方向上发展可以给我们讲一讲
AGI 的话其实我们有一个大致的一些想法但是其实不同人可能还是有不同的解释的吧最理想就是说一般我们希望 AGI 的话是同样的一个算法就是 AI 的一个算法可以把它运用到不同的问题上能够同样算法的可以解决不同的 AI 问题
然后更理想情况下的话可能是一个模型就是不单单一个算法就是我算我得到一个 agent 这个 agent 能够同时处理很多不同的问题或者起码是哪怕他现在不能处理但可以很快地适应到新的任务上让他能够非常迅速地学会处理一些问题这个 general 意思其实就是说如果他能够人类比如说可以处理的各种各样问题这个 agent 都能去处理就是一个非常 general 的一个 AI
那应该没有一个非常严格的标准界定说到底什么才算 AGI 或什么时候才能达到 AGI 这也是我们在 DMI 也是经常在讨论的其实我觉得大家还是有不同理解的但是我们还是能够看到就是说从那种现在可能一些单独任务的 AI 不断地扩展的这个能力是越来越强
就是同样一个算法它可以做更多的任务可能就是之前它比如说是做一些分类然后现在又可以做分类又可以做比如说分割之类的对然后你可以运用到不同的一些就是 day set 上面然后你不需要去做特别的那种重新训练或者去做那个特别的 adaptation 就我们希望就是说一个 model 可以让它就是说直接运用到解决不同的比如 image speechNLP 的各种问题上对
对其实就是我有看过就是比较粗浅的看过你的一些研究就我觉得就可能是涉及一些比如说原学习或者说是不同的这个就是可能信息类别之间的这个就是用一个通用的算法去解决问题的这么一个
一个工作你可以给我们大概讲一讲最近你的这些研究方向然后你觉得是不是离 AGI 更近了一步或者你觉得离 AGI 还有多远我最近几年做的研究工作主要是原学习 Meta Learning 就是一个 Learning to Learn 的一个方法我们一般是说积极学习的话就是我们设计一套算法
然后去训练一个模型就设计一套算法然后把要用的训练数据输入进去去拟合一个模型让这个模型可以在这个数据上面去学得更好那模型是学起来的但这个算法本身是我们自己手动编程出来的
那 learning to learn 的意思就是说我们把这个算法当做一个模型然后我把每一个任务当做是数据就是我不断地给它 feed 不同的任务让这个能够学习这个算法的话看看很多任务以后可以学习到一套比较通用的算法这样的话我得到的就是不单单是一个具体的一个模型而是一个怎么去学习模型的这么一个算法这个算法就不是手动去写出来而是就是让机器去学出来的
那这个好的地方就是说现在很多的 AI 想法其实大部分还是说需要有研究者自己去设计嘛
但是你不同问题可能需要有不同的方法那手动去设计一课非常 general 的一个 learning algorithm 是非常难的那么就希望就是说既然数据能够帮助我们学习某一个解决某一个具体任务我们也希望数据能够帮助我们去设计一个比较通用的一个设计一个学习方法我之前的话有就是说用这个原学习这个思想的话比如说用来学习一个优化器
我们常用的优化器比如说一个 BS 优化器它是一个我们根据 BS 的模型的方法去推论然后去推导它的一个公式这个优化器的过程应该是怎么算的那我就希望用神经网络的方式去学习说如果我们要解决这么一个优化过程那它的最好的算法用这个神经网络是怎么学习出来的就不需要手动的去推那么多的公式然后让它适用的范围能够变得更广一些
另外还有一个工作的话,那个就更偏应用一些了,我在做一个小样本学习的任务,比如说我们把它应用在文字到语音合成的一个模型上,就是 text to speech。正常情况下面,我们要学习某一个人的声音,可能需要把它 feed 要几十个小时的数据,才能学习到一个比较好的 text to speech 的一个 model。
对于一个新的任务的话我们可能又要重新收集就是几十个小时的声音去学习一个新的模型这种工作不但要求的数据量很大而且每次的话训练过程也很长我希望用一些 Future Learning 的方法用一些 Meta Learning 的方法能够得到一个更好的一个 Learning Algorithm 使得它在每一个新的任务上这里面一个任务指的是说一个新的声音上面我们只需要少量数据就可以非常快速的去学习
然后我们最后是可以实现基于可能 5 到 10 分钟的一个人的声音就可以学习到一个比较好的就是可以合成出一个和这个人的声音比较像的一个模型而不需要几个小时甚至是十几个小时的时间那这个我的理解还是一个比较 narrow 的一个 meta learning 就是说它针对的就是 text-to-speech 这么一个 model 然后把它扩展到不同人的口音上面去那我觉得
未来的话理想情况下的话我们这个 model 的话不单单是做一个 text-to-speech 它也可以用来很快的适应比如说去学习到一些 speech recognition 然后怎么样把那个语音合成跟语音识别都用同一套模型去把它或者同一套学习方法把它统一起来或者我们可以甚至扩展到就是 multimodality 就不同类型的数据上面去那种方法的话是更接近于就是 AGI 想要实现的
就是不单单是一个狭义的一个任务集商而是一个更广义的就是如果人能够处理不同的数据不同类型的数据那我们希望这一套算法也能够处理不同的数据太酷了这个太酷了对我听过你们一些 demo 我觉得这个好酷就你们那个 paper 上发的 demo 我觉得那个声音质量好高非常的酷
谢谢这很多工作也是基于之前 DeepMind 然后谷歌的很多模型上面去我们只是说把 Meta Learning 这个想法它能不能用到 Text-to-Speech 这个问题上
我想再稍微聊回来一点就是 AlphaGo 就是你刚才也提到说你加入的时候其实 AlphaGo 已经做出挺好的成绩但是你没有想到说那么快就能走到这个公众的这个视野上最后能够赢这个李士实的这么快就能实现你在这个参与这个项目中你觉得有什么事情让你觉得记忆特别深刻吗或者让你觉得特别激动当然除了最后一场比赛啊
对比赛肯定是最激动的那之前的话我觉得有很多次其实就是每次 model 有一个比较大的一个更新一个进步的时候都是比较激动的时候对于我个人的话自己最主要的过程就是说用一些 BS 优化的方法去把整个 AlphaGo 的整个模型去做一个整体的一个调层
这个因为之前其实就是训练神经网络这些都是用比较传统的一些方法但是你把神经网络训练好以后怎么放在这个 AFAGO 这个系统里面把它跟那个 Mentakalosu 搜索方法去结合起来这一块的整个优化其实还是很难的就是它是一个黑核优化的问题你不妨用一些 T2 下降的方法去做的那我当时也是抱着试试看的心态就用一些 Base 优化的方法去跑
大概过了也就是一两周的时间吧发现就是确实有个比较明显的一个算力的进步吧当时其实我不太清楚到底说它那个一个百分比的提升到底有多重要吗然后我就去跟那个 David Silver 然后阿加黄他们去聊嘛然后他们说这个其实算就比较大的一个进步了我当时也是觉得挺兴奋的
就感觉是自己之前在做 base 方法里面一些用到的很多知识可以直接用来 apply 到这个这个 upvote 问题上面去这对我个人来说还是比较激励的一个时间点然后后来的话参与到里面我觉得每一个版本的更新都是非常让大家激动的你们当时这个有多少人在这个项目组里面啊
当时纯技术的可能十个左右吧十个上下吧那也是挺小的一个 team 对也不是一个很大 team 但这个 team 的话我觉得就是说各个技术背景的人都有就有做 deep learning 的做 reinforcement learning 然后有 engineer 然后
我觉得就是说各个方向的那种技术搭配还是比较完整那你们是做到什么阶段然后就觉得说我可以跟这个李时时打一场比赛了可以全世界直播了就是特别早就已经有计划先定了一个时间还是说你先做到一个程度你觉得现在我们可以做然后再开始计划这个事情
因为我们不跟李适时比我们也不知道到底能不能赢李适时所以肯定是先跟他先约了一个比赛然后在此基础上就是说在比赛之前我们就不断的就更新迭代版本然后增强他的棋力因为我们自己也不知道到底说从哪个时间点开始真的能够超越李适时
所以这个也是相当于是 Demis 他们对自己就下了一个目标嘛就是这个目标就是说在公开比赛一定要想办法能够实现就超越李适时这样子那他在之前有学习过这个他的棋吗没有我们这个没有针对李适时他自己的棋风比如说做调整
因为也很难本身这个 deep learning 都是把一个大的数据库放进去你可能理事室它本身有可能几百或几千个棋局的话也很难影响巴伯格学出来的一个棋风
因为我知道后来好像 After Zero 的话就根本不需要和人下来进行提高了对 After Go 的话它是一开始的时候用一些之前积累的棋谱人类棋谱去做训练训练得到第一个版本的一个 Policy Net 然后基于这个再用强化学习方法去不断地去改进
所以一开始还是用到了一些人类的一些奇葩知识但到 AlphaZero 的时候就完全抛弃掉了 AlphaZero 更像一个研究课题就是说我们能不能做一个更 general 的一个算法就它不是针对 gold 这个威胁这个问题来做当时肯定你们是有一个目标说要超越这个理智识但当时有多 sure 当时在比之前觉得胜算有多少啊
我们会内部去评估它的算力嘛维奇的话它有一个 E-load 的一个评分体系这个就是在国际上通用的不同棋手之间都会排一个就棋力的一个排行的我们的话也是当时根据 AlphaGo 它不同版本会去评估就是它不同版本之间下然后评估它最新这个版本的棋力是多少
那这个奇迹的话我们觉得还是比较高的但关键是这个奇迹是通过跟围棋软件得出来的而不是跟人去实际比去得出来的所以到底这个分数能不能直接就是 transfer 去跟人的那个奇迹去一对一比较这个我们其实谁都没有没有这个心情说肯定是这样子所以我们只是说感觉上应该是可以超越但是真的比赛是什么样子比赛之前大家都不知道了
因为我当时看那个纪录片嘛因为他不是有一个跟踪你们报道的一个纪录片跟踪这个团队我当时就觉得说我不知道就是你们当时的这个团队有没有刻意的比如说有一点点表演的成分就有一点这种戏剧的这种感觉还是说就是真的是当时的那种那种他们的心情真的是非常的忐忑因为我记得有一局是那个 AlphaGo 好像是犯了一个比较低级的错误什么的然后我记得 David Silver 在那个屏幕上他
就他说就感觉真的是非常非常的失望非常难受我不知道当时是不是真的是这样还是说你们有一点点就是因为因为有人在拍摄所以说你们可能把你的这个情感更加的就是宣泄出来一点
这个是就真的比赛这个没有预演的然后不像就是我们做研究的时候有一个 test set 然后你可以偶尔去看一下 test set 上 performance 是怎么样我们这个比赛的话因为你就是之前是从来没有下过所以我们是完全没有就是没有这个信心说肯定能赢或者肯定不能赢的
对我们来说不管是在心理上还是技术上都是一个很大的挑战第四局的时候我们就是看他直接最后感觉是能赢的时候然后突然发现李适时下了非常好的一手导致后面再走了几步以后阿花哥就直接是不行了就开始犯一些很低级的错误也不算低级错误就是说我感觉是他觉得已经不行了然后就走了一些大家看起来很奇怪的一些走法
这个我们当时也是很意外的就是这种是没有预期到的所以我觉得更多的还是比较真实的一些心理感受吧那这个纪录片是一早也就设计好的吗还是说赢了之后才决定做出来这个一直还是在跟踪纪录的吧就是研发过程中我不太清楚到底是从哪个阶段开始的但是说比赛之前就已经有一个团队在分拍了那这个纪录片还算比较真实的还是挺真实的刻画了整个的过程对对
都是一些真实的场景我反正每次看了我就觉得非常热血澎湃你们每一局之后就有没有再把那个做提升还是说其实这一个系列就是一个版本的就是一个版本这个就是在比赛之前就扣的什么全部 freeze 因为要调整的话是就风险非常大的你怎么知道万一调整以后不会引入一个 bug 呢
所以这个我们在比赛之前的话是做了大量测试就认为它是比较稳定的然后才拿得出来那其实这样来说其实李士实他是有优势的因为他可以总结他可以复盘但是你们就其实就是没有办法去根据他的对策去做出一些提升没错没错如果李士实能够通过就简单几局就能找到一个就第二方格的弱点的话这就证明就人类的这个 AGI 是非常强大的
所以机器的 AGR 还任重道远对 机器跟人相比其实它的智能水平还是要弱很多参与 Alphago 研究的这个成员相信都是围棋高手是吧要不然也没有办法加入这个组没有啊 就是这个团队里面其实大部分人都是不懂围棋的阿加是围棋走得比较好他应该是业余选手里面算非常强大概业五还是业六的水平吧
然后 David Silva 的话也是走得不错他们之前都是会下围棋而且也做过围棋方面研究的但其他大部分人的话其实不太懂围棋还是把它当做一个 AI game
我知道除了 AfroGo 其实 DeepMind 你刚才也提到有很多 game 对吧就是都是研究 game 为什么从研究 game 开始探索 AGI 因为我觉得 DeepMind 的话它是就传统上它是比较侧重两个主要的技术一个是深度学习一个是强化学习作为一个智能体就是关于那个 agentAGI 里面 agent 这个定义的话很多也是从就是强化学习这里面的概念来的就是说我需要跟一个 environment 去 interact
然后能够从 environment 里面去执行一些任务那么就机器学是需要大量数据的有什么样一个环境能够在一个 environment 里面快速地迭代快速地去收集数据 game 是一个非常好的一个这样的一个研究环境因为你可以把同样一个软件你可以在很多电脑上并行执行而且可以快速地就超过实际时间就快速地执行所以这个对于做强化学习研究来说是一个非常好的一个评论
那现在还有什么其他 game 更挑战吗?比这个围棋来讲更挑战,然后在 DeepMind 里面大家在研究?DeepMind 的话,在做了围棋以后,其实就是同样的 AlphaGo 算法,也可以进一步被推广,去解决很多棋类游戏,像那个国际象棋,然后日本将棋,后来出了那个 AlphaStar 嘛,AlphaStar 用的是不同的算法,但是用来解决就更 challenged 的一个问题,就是在星际上面怎么去游戏。
我们目前的话倒没有特别注重说对某一个具体的就是可能大家玩的比较多的游戏去专门去做研究我们希望就是说把这个 game 或者更抽象成就是一个更好的一个 environment 一个就是做强化学习的更好的更 rich 的一个 environment 然后在里面能够让 AGM 可以学不同的任务所以我们可能不会侧重说某一个大家就平时在玩的一个具体的游戏去做这样的研究
就等于游戏算作一个环境是吧在这个环境下更好的 train 这个 agent 但并不用研究某一个游戏像 AlphaGo 那样子要去战胜人类对 如果这个游戏环境能够做得跟真实世界完全一样然后又可以非常快地去快进快退那就是一个非常非常理想做研究的一个平台后来 AlphaGo 战胜的时候你们怎么庆祝了吗我当时是留在伦敦那边的我也不太清楚但是公司内部还是有一些 party 的
我想问那个玉天一个问题啊,可能这个有一点点自私这个问题,因为我是一个就是从一个博士生,在博士生的角度,因为我也是做可能相关领域的研究,我就想问你们在这个研究过程中一定会有很多的不确定性或者说很多的就是失败啊,或者说就是比较不好的尝试。
你们内部有没有就是应对这种不确定性的一些比较具体的一些措施然后或者说你个人是比如说在这个心态上是怎么调整这些问题的因为我觉得可能在我的个人研究中会有很多这样的挫败感这个很正常我就做研究的话这个是经常碰到的就有时候可能自己觉得非常好的 idea 然后试了很多时候就发现其实行不通这个我觉得也是经常碰到的
我们现在就是做研究的话一般会设一些比较短的一些 mouse 的就是可能几周时间然后尝试一些 idea 看这个 idea 是不是 promising 然后如果结果就是比较一般的话可能就会考虑去不同的 idea 吧
然后如果比较 promising 的话就把这个项目继续做下去就是做过程中会随时调整但有时候比如说做一个比较长的项目然后哪怕去发了 paper 结果发现其实这个效果跟业主预想的一样这个也挺常见的我觉得做研究本身就是有这样一个性质在吧
对研究就是有很多很多的不确定性但我觉得这也是研究最有意思的地方在不确定中不停地找方向然后最终实现对这个研究的选题一般是怎么来确定就比如说是你来提一个想法还是说已经有很多你来选一个一般是我们提我觉得还是比较 bottom up 的但公司的话也会有些大的一些研究方向的一些指导
我觉得丁曼还是比较注重就是说我有一个非常明确的一个 goal 就是 AGI 然后围绕 AGI 的话可能会有几个大的方向他觉得是比较重要的那我们自己在想 project idea 的时候也会看自己 project 是不是跟这些大的一些方向会拉得比较好因为丁曼还是非常鼓励内部合作的那其实你如果说我完全想做自己想出来的跟其他人不一样的那你可能也可以做可以做一段时间
但这样的话你就会感觉很孤独吗就是自己一个人在做然后其他人都在做不同的东西所以如果想得到更好的支持然后更多人一起做一个项目的话大家都还是会想做自己的 project 怎么样能够跟其他人写 research interest 然后跟一些公司的大型大的目标可以恶化的比较好
你刚才提到说像你这个因为被了就是包括这种不确定性可能你有比较小的 milestone 那就是说你一开始这个项目 idea 的时候就是确定了之后大概也就有一个时间线是吧就是一个大概的一个计划这个项目要做多久对
对,我觉得这个话还是有很多 Google 的一些项目管理的经验吧所以一些稍微大一点项目的话都会有 Program Manager 一起帮你跟着进度看看是不是现在 Google 太大 delay 然后需要什么样的支持包括人力的资源之类的所以我觉得 D-MAN 对项目管理这块还是做的比较好的
那一般你一个项目像你刚才说的可能你是 scientist 然后你会有 research engineer 跟你配合一起来做是吧看项目就是说有些项目可能我自己做或一两个人做如果需要 engineer 一起支持的话可能会再说再去沟通其实这也是商项选择的一个问题如果 engineer 对这个 project 挺感兴趣的话就会直接参与进来
那一般一个项目多长时间啊这个有长有短的吧我觉得正常的可能一个项目可能就几个月的时间比较短的但像 offergo 这种也是做了一两年的然后 offer4 的话其实都做了有四年多了就是每个项目的话这个时间倒不是固定的那我可以再问一个更不确定的问题吗就我想问这个玉田你对于就是可能 AI 的下一个 tool
突破口是什么你有没有一个自己的认识或者你觉得说现在的 AI 它就是是不是可能说走到一个瓶颈期需不需要跟可能一些跨学科特别可能是神经科学上面有一些结合因为我知道这个 Dickman 可能和这个 Gatsby 他有一些合作那你觉得这是一个可行的研究方向吗或者说你觉得这是实现所谓 AGI 的必经之路吗这个其实我觉得不同人可能都有不同的看法吧我
我有自己一些想法但这个完全不能代表 DeepMind 我觉得 AGI 的话应该还是有很多不同途径可以通到 AGI 的跟 Neural Science 结合之前也是有很多的成功的一些例子就像那种 Memory 然后像 Neural Network 最初也是从 Neural Science 得到一些很多启发我自己对于最近一些进展比较感兴趣还是说那种 Large Scale 的 Modeling
像 OpenAI 它们的 GPT 的工作我觉得这是非常 exciting progress 怎么样用尽可能大的收集起来的数据用尽可能大的模型去训练让它能够做一些非常好的 transfer 就是 generalization 这我觉得是一个非常 exciting progress
对你觉得大模型大数据还是一个趋势,而不是说我们要一味的让这个模型更可能说累脑化或者擬人化这样,我可以这么理解?我觉得这两个都是比较有可能会成功的途径,很难说到底哪个会比另外一个好,我从我自己的角度觉得第二个方向我觉得更感兴趣一点,因为这跟我做原学习的那个方向是比较一致的。
我希望就是说集不同数据不同类型的不同任务的数据希望能够学到一些在任务之间可以 transfer 一些 knowledge 但这样大规模模型就是不太环保可能对所以很多人现在很多人就在研究说怎么样去提升它的那个继承效率就最近谷歌不是有提出用一个 sparse model 虽然它的参数也是非常多但是它的对于每一个 input 它实际上计算量是也少这方面也有很多的研究
那你觉得可能说最大的挑战是什么呢就你现在就现在觉得说 AI 不管是从研究方式上或者是从一些方法论上面有没有什么你觉得是可能是比较就是需要去克服的上一个轮回的这个 AI 可能是因为在算力上或者说在数据量上受到了大的制约导致说一些性能上就是发挥不出来那现在你觉得就是扼住了这个 AI 发展的这个势头的这么一两个因素是什么或者说存不存在这样子的因素
我个人做研究过程,我感觉现在挑战比较大的还是这种 generalization 因为 AI 的话,它可能对某些具体 well-defined 的一些问题比如说 image classification 这些是做得比较好的但是你一旦要设计了一些稍微调整一下不同的问题,问题设定
然后进入一些新的场景里面的话它那个问题会又变得不一样了这时候怎么样能够把现成的非常精确度非常高的 model 可以 transfer 到一些新的问题上去我觉得这还是比较有挑战的而且这也是能够把 AI 应用到具体生活中很现实的一个问题如果真的想让 AI 成为像电一样基本上所有人都能通用的话那它肯定是可以用在各种各样不同的电器上面的
不是说几个现成的用的工具比较好就够了现在的 AI 其实还基本上做不到 adaptive 就完全不能 adaptive 对吧
对 我觉得像很多做那个做应用的比如说图像图像应用的你要放到一个新的场景里面去比如说放到夜晚识别的话你可能如果真的要做这个产品做的比较好你要重新去在夜晚这个环境里面收集大量数据然后去做标注啊什么的所以这种 transfer 这种 adaptivity 我觉得还是挺缺的东西
就是你觉得要解决这问题还是你需要更大档的数据才可能解决是吧对更多数据然后可能更好的一些模型结构吧能够去更好的去表征吧就是提取这些能够通用的一些特征我觉得这个也不单单是数据就是怎么样能够设计更好的模型也是挺重要的
我觉得你提到这个数据还挺有意思的因为其实我理解现在也等于是两派的 argument 嘛一派的 argument 其实就在说靠这种大数据算力的这样的模型其实将来未必能够走得更长远而且就是说如果是纯靠将来如果纯靠数据啊那其实比如说创业小公司就完全没有机会了从商业的角度来讲其实很多人也在说随着数据隐私越来越大越来越在意的话其实可能你收集数据也越来越难了我
我不知道你怎么看我们如果就从数据的角度来看的话虽然大家目标肯定是要有更多的数据但是随着大家更来更关注隐私可能数据的获取可能反而没有那么容易或者说在之后数据的量未必能够有那么多那么多样性了我觉得这是有可能的
那我觉得目前的话虽然大家非常就觉得说要尽量把模型做大把数据收集更多但其实还没有到那个 limit 就是大家也不知道就是如果我再把模型数据 scale 再提升一个量级或两个量级是不是会遇到一个就 performance 上一些瓶颈
大家都没有看到所以我觉得这方面还是可以就是有更多的空间去做的据数据这块的话我觉得大家更越来越关注隐私然后又关注自己信息保护这也是必然的结果因为 AI 也开始用到个人的生活里面去了所以这个影响会更加直接一些
这个我也不太好评价说到底哪个就是是不是会直接会限制这个说不定你公开数据就已经足够了已经足够你训练一个很好的一个 model 就像 GDP3 是吧其实就用了公开数据就能训得挺好的
对,它用的完全公开手机不过现在就是随着越来越大量数据的话就是怎么样去 deal with 那种 discrimination 就在数据里面含有这种问题关于 ethics 这方面的东西其实也是暴露的越来越多所以这方面研究肯定也是会跟进的
就是我收集数据过程中应该用什么样更好的一个 fair 的一个方法去保证他们训练模型能够有一个比较可靠的一个比较 fair 的一个 performance 我觉得这个未来会变得越来越重要
对对这肯定的对因为你也提到其实在 DeepMind 很重要的一点就是要就是这个 AI 的 ethic 我想来顺着这个再问一句那就是在你的研究中有什么场景或者有什么例子你当时要就特别要考虑这个 AIethic 的吗我不知道你们是也是有一个就是说我们当时做心理学实验是所有实验都要过伦理委员会 approval 才能过我不知道在 DeepMind 是不是也有这种 process 你必须要通过才能做你的这个研究
我们也是其实也有我们之前做那个就是 few shots 那个 text to speech 的时候其实也是比较敏感的一些研究方向因为就是我们一个例子是把它用到帮助一个健动症病人的去重现他原有的口音
那个人的话他就像霍金那种就是剑头证人就慢慢的你的肌肉就会丧失那个力量然后就变得就没法走路没法直立然后甚至没法说话了
但是它还可以通过一些方式比如说眼睛或者一些非常模糊的声音去交流那我们就希望合成这样一个 text-to-speech 的方法能够复原它原先的口音那这是把技术用到一个非常有利的帮助人的一个方面但是同样的技术的话你如果也可以拿来比如说做一些 voice cloning 比如说去合成出比如说 Trump 的声音或者 Obama 的声音
那你就可以不同人就可以把它用到不同方面所以这个我们当时也是考虑很久说这个技术应该怎么样去用怎么样去研究它怎么样去把它公开发表出来的
我们在一些技术的保护上面它一些应用方向上面还是做了很多的考虑的这个 AI 想作恶其实也挺容易的尤其像什么 Deepfake 这些东西你要是让一个假的变成真的其实现在也不是那么难实现对 Deepfake 也是最近几年讨论也是非常多的而且它可以做的不单单是图像现在视频语音什么各个方向都已经做了这些非常逼真了
那你们做的那个语音的那部分其实就是从技术层面来讲跟 Deepfake 实现的 Fake 人的声音是不同的方向吗还是不太一样 Deepfake 是基于那个 BAE 的方法然后我们是基于一些就是 Untuning 的方法就是从技术路线上来说还是不同的方法吧
然后我们当时也是考虑这个技术会不会产生一些就是论详问题但是实际上需要我们技术的话还是需要一些包括技术跟数据上一些瓶颈所以不是说所有人就是看了一个论文然后直接可以把一模一样的技术实现出来你们有后来最后代码有放出来吗可以让大家就是来用还是说其实没有把代码放出来代码我们目前倒没有公开我们是公开一些方法
所以你们也考虑到了其实这样还是比较难的是吧就是说任何一个人根据你们的 paper 其实还是挺难完全复现你们所做的东西
也需要一些数据方面的,因为如果你要真的做到非常好的数据的话,你需要得到模仿的那个人的一些高质量语音。其实这方面很多公司提供一些类似的服务,然后他们的话一般会要求就是说如果要用这个服务的话,你必须真的想要模仿那个人的声音的一些明确的一些授权。
然后包括就在设计就数据输入上面会加了很多设计限制防止你就随便录了别人一段口音然后直接去用这还是就真的在公开的时候还是会把很多那种方法考虑进去避免就是拿这些技术来作恶的
就是 AI 我们还是希望 for good 嘛对吧就是还是希望能够被我们所用做美好的事情而不是被我们所用来作恶非常非常感谢你的时间我知道你马上有一个会所以很遗憾我们不能再继续聊了我觉得其实我跟坑还都有好多好多问题想继续找你讨论希望之后还有机会请你来我们的节目做客我们可以接着聊这个相关的话题我觉得今天我们可能只是把 surface 聊了
其实每一个今天你聊的后面都有很多问题我们还都挺感兴趣希望能有机会继续跟你来讨论的我也很高兴能够加入到这次的节目谢谢那我们今天的节目就到这里谢谢大家收听感谢大家收听我们的节目欢迎给我们留言你的看法喜欢我们的节目不要忘记订阅啊我们下期再见