欢迎收听《实景英国》一档聚焦英国话题的访谈节目让我们在伦敦和你聊一聊科技 创业和生活大家好 我是 Linda 欢迎收听《实景英国》这期节目是我们 AI 特辑的第二期非常荣幸地邀请了 UCL 计算机系汪军教授来节目做客
汪教授也是阿兰图林研究所 Turing Fellow 和 MediaGamma 的联合创始人汪教授你好,欢迎来节目做客感谢这个邀请对,我是在 UCL,University College London 国内就叫伦敦大学学院就是人家可能就首先第一个问怎么是学院啊怎么大学后面还加一个学院应该是学院大学,怎么大学学院
我可以稍微讲一下这个历史就是那个我们伦敦大学学院是本来最早的时候就叫 London University 伦敦大学然后后来就是又有一些其他的伦敦的这个学校大学都起来了因为
因为我们是第一个伦敦的大学所以叫 University College 就是第一个大学所以大学是 University 嘛所以叫 University College 然后你可以看到有 Imperial College 对吧还有 King's College 还有什么其他的 College 了我们叫 University College 就是我们是一个第一个大学的这个地位所以就变成 University College London 了当然英国人也觉得比较拗口所以现在我们统一的一般来说对外就叫
UCL 这样的缩写的话就避免了这些其他的那个疑问就像 MIT 一样对吧这个我都不知道这个我在 UCL 读了书我都不知道还有这个典故你不知道对对对是这个原因那我们学校其实在这个业界还可以吧这次好像那个 QS 排名咱们是在全球排第八是吧对对对咱们在全球排第八所以基本上是在大学排名里面
当然是在前十吧左右不管哪哪几个榜啊反正在英国的话我们应该是在应该前三都没有什么太大问题对吧应该这样保守 top5 肯定是完全没有问题的哦咱们就跟那个帝国理工稍微争一下第三名对吧对就跟他争一下对对对对然后这个剑桥留金咱不要争了对吧咱还是比不过
就是名称上面的就是可能有些科目可能呃就是超过或者有些情况但是对呃从从名声角度来讲就是我们就是地狗底理工这个互相争第三吧在平坦是这样这个水平那嗯就回到咱们计算机系啊就是我们计算机那机系呢就是大家可能都知道啊出名的就是那个大家讲的那个阿富阿阿富狗就是就是我们学校的一个老师他叫
David Saber 他就是和这个 DMAR 合作后来就变成世界第一的这个高手了超过了所有人类的玩家就是这样子就咱们 UCR 的这些基于计算机学习 Machine Learning 和 AI 的研究呢可能就为大家所知道然后我这边的方向呢最早呢我是做一些信息检索大家可能知道那个搜索对吧都用百度啊大家不知道现在用不用百度啊
就是搜索引擎 Google 的搜索引擎包括 Bing 还有国内的一些搜索引擎就是搜索其实一个比较重要的一个算法我以前一直在研究这个然后包括推荐对吧
刚才领导也讲了说当咱们的 PoCard 被推荐的时候流量就上去了对吧根据你的历史的东西我到底是怎么样去推荐给用户什么样的内容符合他的兴趣爱好对吧推荐系统其实里面有很多重要的算法我们就是研究后面重要的算法
然后后来做了些广告的那个可能这个领导也不知道知道就是广告其实一样吧也是搜索推荐但是呢它里面的算法可能包括经济价值对吧因为你现在广告大家都知道就是说因为你点击了或者你这个买了它产品了那这时候呢这广告就有价值了那这里面我们也做了很多各种各样的研究把这个排名竞价的这些东西放到 machine learningAI 的这些算法里面对吧那其实就是把什么东西呢把我们叫
博弈论就是说我的行为决定你的行为你的行为决定我的行为最后什么是个比较稳定的状态那么稳定的状态就是这个纳什均衡经济学里面的这个博弈论和 AI 的结合就产生非常有意思的视点这个方向呢然后就历练我到现在做强化学习的多肢体强化学习现在多肢体强化学习呢是我一个主攻的一个方向
所以大概介绍了一下我的这个研究的这个方向的这个转变就是属于打一枪换一个地方这种状态但核心其实还都是沿着决策方向走的对吧从搜索其实也是在 predict 的预测人的行为然后到推荐其实也是一种预测决策然后到现在你做的这个多肢体的决策是的
就是给大家可以看到这个人工智能应用里面可能一般可能认识到的是人脸识别对吧手机上面可以识别你这个个体然后能够帮助你做一些最简单的一些决策对吧比如说把手机打开或者不打开对吧这个决策这相对中比较简单但是比如说围棋国际相机它的决策空间非常复杂对吧你现在的行为
要对未来的结果有负责你怎么样用数学的表达式把这个降台我讲的这个情况来比较复杂的决策行为表达出来然后怎么样再去求解所以这个是咱们强化学习里面一个核心的一个问题你刚才提到多质体就是说像 AlphaGo 其实是单一质体就是那多质体是指什么怎么理解呢对你看就怎么理解比如说 AlphaGo 它是单质体对吧但是你在比赛的时候对吧你在用它的时候
它其实是我们叫 Zero Sum Game 就是是个零和游戏就下棋本身是个零和游戏但是你训练的是个单制体所以我们在训练的当中我们有一个概念叫 Self Play 就是自博弈也就是说你左手打右手就像那个呃
四标一行专里面周伯通一样挂到黑房间里面没试感然后就左手右手互搏然后左右手互搏你会发现最后训练的时候其实是什么呢是拿一个比如说 AlphaGo 1 打 AlphaGo 一个 copy 另外一个版本 AlphaGo 2 让他两个互相打
打完以后然后我们通过这个我们叫 reward 吧就是你赢了对吧那行那我们就把这个好的信号呢传递到里面的神经网络让他去改这个神经网络的参数把你入了那就另外一个方向改那就使得你不会不断的提高那么从这个角度来讲呢他的训练的方法他也可能又是多制体对吧他是个零和游戏
然后甚至到什么地步我们最近研究的是呢我们会把它做一个不光是 AlphaGo1AlphaGo2 可能 AlphaGo34 甚至 AlphaGo100 我们有一个 AlphaGo 的分布或者说我们叫它一个 population 一个群体可能有 100 个甚至更多我们让它从里面选出来一个和对方的一个群体来打
然后最后让它不断的演化最后达到一个能不能走到最优的一个这就跟人类进化的概念差不多了是吧对对对有人用进化的方法那有人用一些其他方法就是说这个速途同归但是这个概念一直都是在那儿
增强学习就是你刚才提到那主要的应用在哪里除了你刚才提到的这个像游戏 AlphaGo 这些可以用在哪里已经在商业上很成熟了吗商业上没有成熟对商业主要还是在研究领域但是这地方已经看到效果了比如说咱们讲搜索推荐广告对吧其实里面是有一些应用的我们举个简单的例子就是领导你刚才你那个比如说你这有些播 cast 的内容对吧
被放到榜上面是推荐给大家它里面其实我相信啊如果这个网上的这些站点啊它如果做得好系统做得好它会有一个叫 ExploitationExploration 的 Balance 什么意思呢就是我呢要做探索因为你这个新的内容存在一个什么问题呢一个我们叫人启动的问题
你刚有个新的呃内容来了你也不知道他到底是不是会活或者你不知道他这个他的受众谁会跟他感兴趣同样的道理你有一个新的用户来你也不知道他喜欢啥对吧所以呢你就随着探索的方式说哎我应该把这些这个新的内容啊
我先给一些用户我同样的道理就是说这个新用户来我也先把新的内容给他这个就是探索是吧探索以后呢有了点击了有了什么了我就可以学习出这个内容是跟什么什么相关对吧我就这时候我就下面可以有更精确的 targeting 但是你有不能太做探索太做探索那你把所有的这个空位全给探索的内容那真正用户喜好的东西可能就没有了所以就永远存在一个
我们叫 exploration 探索还有 exploitation 是利用你现在的这个知道的知识去预测对吧把这两个均衡做到最好那他怎么去弄呢一般来说这个平台的话他会优化他的比如说某个特殡的
指标比如他优化他的点击率对吧他优化他的某个长期的效率或者他优化他的大家点广告的就是 revenue 对吧他 ultimately 他当然是优化他的 long term revenuelong term revenue 同样也是存在 exploitationexploitationexploitation 我 exploit 当前用户的那个我给他多次的广告对吧
但是呢我也不能让用户整天看到广告非常讨厌我从长期角度来讲我要留住这个用户同时呢我要把我这个给用户带来利益的情况下也就同时我自己也能生存对吧所以就是永远存在这种呃
balance 这个是强化学习里面的一个最精简的问题有各种各样的强化学习方法包括 bandit 叫多臂老虎这个是专门研究这个然后这个有多都是用在咱们搜索推荐广告里就是这个无处不在除了互联网以外还有一些比如说优化的问题比如说我举例咱们 D 快递怎么样 plan 我的 D 快递的路径对吧怎么样派单
对吧什么人我派什么单效率怎么最高对不对然后包括我们叫路径规划就是刚才讲的那个路径吧就是我有一个车队对吧我的车队要送这个或者单子或者什么我怎么样就很好的这个路径规划这个传统上呢是用这个 operational research 就是运筹学的这个一些方法那主要也是一些优化的那最近呢因为数据数据来了就是以前不一样以前他是没有数据
他就只好把这东西啊写到这个求解信里面然后就给给他给他个答案了他就弄现在是动态的同时呢一大堆数据来数据来以后你就可以通过数据可以学习了对吧哎这个好这个不好什么什么效果都可以卖入我爱卫星是卖入我所以现在我觉得属于一个
就是大家都在探索用机器学习的方法加到以前的传统的这个求解器的这个里面所以这个现在是属于一种改革换代的一个阶段吧那这个是更需要在 research 上有些什么样的突破吗还是说更多的是说还是要更多的数据然后能够更好的来做计算我觉得是两个吧一个首先就是研究上面可能要一些突破比如说
我怎么解决一些大规模的小规模的现在都可以计算机学习但实际上呢你可以干这个事但是你怎么样通过大规模这是一个就是一个问题然后怎么泛化啊比如说我只能解决 20 个车的我在这变成 50 个车的时候我就从头来就没有起到一种泛化的人就 20 个我可以迁移到 50 也可以 50 个车的也可以迁移到 100 对吧就是
就是你换成公司一的东西那是不是公司二的我们也没用啊之类的就是这种泛化性那么还有一个就是说也是业界本身也存在一个能够接受对吧包括数据的采集是不是把数据给你能够 clean 啊能够就是清理成可以能够解脱实际用的
对其实就是说从人工智能从最简单的一开始是感知嘛对吧就是我们先能够视觉啊这个层面解决问题那从要从人的智能的角度来讲决策是最高智能了哈那就是在现在这个层面就除了游戏这个场景以外这个 AlphaGo 的确非常强大我们已经绝对证明比人类还强大了那就是最简严的这个 AI 来讲这个决策能比我们人做的好吗
对我觉得现在肯定是没有就是你真正到应用性对吧在某些 specific case 比如说下棋这个 case 它可能会比人下的好但是我们人的厉害的地方就是说一些复杂的场景然后这些场景我可能没有见过多少次的情况下我可以一次二次我就学会了人会非常快你看这个 alpha zero 或者 alpha go 对吧 alpha zero 甚至是不需要
这个任何的 human knowledge 可以去训练但是他训练次数非常大我们叫 sample complexity 什么意思呢就是我要见到的这个粒子量是非常非常大这段时间呢大家关心这个大模型我等会会讲这个大模型的话这个这个烧的这个钱对吧这个 GPU 这个量我这个手头没有什么具体数据但可以达到这个他训练一次可以可能是说一个飞机从这个呃
哪个地方飞到哪个地方整个的这个能源都消耗掉了才能完成一次训练之类的所以这个消耗的能源是非常大所以这个肯定是要解决一个效率比较高的才行
现在大家正在努力去变得效率高这个可能我觉得会非常快就非常快的把这个效率会提升上来这个只是一代最终犯话的地方肯定是没有人厉害的对吧所以我觉得就是说在某些特定场景里面可能一些比较 routine 的场景它是可以那么目前就是一些比较复杂的场景里面对吧一些复杂的决策
或者是说不是 well defined 的问题我讲的不是 well defined 可能我做这个角色也行我做另外一个角色可能也行对吧这种莫离两可的情况下那可能人的这个能力要很强因为人这么多能进化对吧所以人的大脑还是很复杂的是一个超超强的机器
各种算法在乱而且效率超高效率超高对所以我们做 AI 的人其实要看的广泛比如说包括认知学包括 Brain Science 脑科学都得适合一点都得了解一点然后通过对大脑的一些理解然后把这些 idea 可以借过来借鉴过来可以对我们的研究会有起到很重要的作用
对我记得你几年前当时有做过研究方向就是说机器意识对机器有意识吗最后有结论吗现在肯定没有当然取决于你怎么定义意识了意识怎么定义不是那么清楚讲到意识我觉得我们之前聊过很多意识的东西就是你讲的机器有没有意识对吧我觉得可能以后会有首先意识是啥我的初线的理解就是你有一个我们叫三
subjective experience 就是你能够就这个主体啊他有主观的感受 OK 他通过某种形式 report 给你其实我看到一个至少当然不是一个非常严谨的定义但是一个可以 walkways 的一个定义所以如果是这样子的话你按照标准来你可能现在说来说去记忆都不实然后现在有一些这个研究方面呢是通过一些
测量就定义了比如说 consciousness 是有一个方法叫 RIT 嘛可以大家可以去查一下叫 Integrated Information Theorem 意思是说如果你认为大脑也是一个信息的处理系统对吧那么这个大脑在处理这个信息的时候呢它如果是能够把信息很好的集成起来
所以信息是很好其实就是我这个一加一要大于二我一加一不能小于二或者一加一点于二就是一个星期加另外一个星期我要能真正集中集中起来有用了对吧好
而不是分离的那就说明他会 give rise 就会产生意识这是一个定义但是这个只是一个目前的一个理论就是没有 fully verify 但是我觉得这个是个最数学最我认为是个比较有意思的一个可以值得去 work with 一个理论那在这个定义如果按照这个定义你再去 measure 我们现在的人际网络你会发现我们主要用的那个做人脸识别这些东西都不行都没有意识哈哈哈
对当然他的意思有些问题就是说你如果去卖着那个啊所以就是那个控制温度的温度控制器他有反馈网络他有反馈在里面那这时候呢你用你卖了他的这个 consciousness 意识用按照他的这个一定规定或没什么他是有有他的这个值的
反对这个理论这个温度控制器有意识这个明显不对所以这个 Information 是因为里面定义的这个东西可能跟真正的人的意识可能它可能更宽泛可能不是完全 consistent 如果是这样的话那么我们就需要人的这个意识的研究从他们这个 Cognitive Science 认知学里面包括这个心理学里面研究我们可以去用它来测量现在的神经网
通过对这个现在的神经网络的了解其实我们是不是应该开发另外一套神经网络对吧使得他的这个 IT 的信息更大是不是他有可能会产生更好的一个方法对吧所以是这两个其实是互通的可以 drive 驱动这个 computer science 研究更好的一个神经网络的架构另外一个点呢就是意识和潜意识那么你可以认为可能现在神经网络这些东西呢
他可能达到一个咱们潜意识的东西比如说你手突然被火烫了一下这时候你先有反应你才意识到他的存在对吧那么也就是说其实人的意识呢部分只是在你行为决策的一小部分就你真正的 aware 到你干这件事情只是在你整个人的这个驱动驱动你的各种行为里面是一小部分而大部分呢是这种
没有意识的你其实你人很多动作的时候其实没有意识你不一定你 conscious aware 你就主观的能感受到他对吧 automatic response 对吧就是自动反馈的对对对对所以这个情况下就特别有点像现在咱们的这个一些东西他是没有意识但是他可以帮你做一些一些比较简单的一些决策比如说你在开车的时候对吧一些熟悉的环境里吧你脑子里可以想其他事情你终于可以开车开开到家里面的时候我问你你说哎你经过哪个红利路口你完全不知道所以你就是
你主观的没法描述你的感受为什么你这个那是无意识的控制如果这样子把咱们现在做 AI 的研究和那个的话你会觉得可能现在都是一些无意识的控制无意识的预测之类的对吧所以把这些东西搭好然后就会以后就可能会不会有意识的东西会出现
所以这个方面我们也在做一些研究就是比如说我们今年的硕士也选了几个这个方面的课题我们就会把比如说有例子就是我们把这个 RIT 我们来去 measure 它用现阶段的这个神经网络我们让它做一些这个各种各样的架构啊各种方式看看它能不能完成复杂的任务这复杂的任务是不是越复杂我们 measure 它的 RIT 的这个 score 是不是越高就是比较对应的关系
对这个话题其实我觉得很有意思我可以讲很多很多这方面的东西就是一个是认知学还有一些基因演化算法对吧你刚才讲到演化那个演化的个机到底是啥我前段时间跟别人讨论那个一个自私的基因的如果大家就是对进化论感兴趣甚至对这个博弈论感兴趣
大家可以去看看可能真的是把你这个对进化论的认识对这个可能有一些 revolutionize 的改观就是这个意思呢我可以大概稍微讲一下就是说他认为进化的个体不是个人而是基因就是人只是一个基因的载体对吧你生存其实是并不重要重要的是某些基因的生存比如说在整个人类里面有些基因是负责比如说某些特质的人
他会发现这种样的这个基因控制这种行为更符合环境那么有这种基因的人他可能生存的概率就会很高对吧相反来说有些人有些基因呢他就 die out 了因为他在这个整个这个 population 这个 level 里面这就解释了什么东西呢解释了一个
如果是进化论为什么我们人类包括不光人类包括一些动物它有利他行为利他行为它甚至有些人会为了牺牲自己的生命去救其他人如果你是按照 survival game 对吧每个人目的都是优化自己个体的生存的概率的话这种行为不会出现那为什么自私之心就结果解释为什么呢因为我会 sacrifice 我的生命为了我的儿子对吧你可以看到母亲可以 sacrifice 她的那个
会为了他的这个后代为什么因为他们本身里面都存在相同的基因所以有些基因就是说可能从这个角度来讲我儿子也有这个基因他也有这个基因对吧这个立他的这个基因所以在这个 population 里面他就会传播了很多你是在救你的儿子或者什么在某些场景情况下或者你抚养你的儿子其实是这个基因它的控制的行为就是让你抚养
对吧所以这一类的基因它就会很容易在这个 population 里面存在所以你就会发现立他个体的立他行为就可以得到很好的解释所以等于是你的基因影响了你的决策对吧啊对各种各样的基因就会导致你的不同的行为嘛对吧那从要从人工智能从这个 ai 的角度来讲的话我们最终应该是 model 这个基因是吧哈哈哈最后把人的基因给 model 出来然后我们就可以 model 出来人的行为了哈哈哈对对对这个我
前几天在学学生在聊这个事在想我们能不能这样的做就是我们现在单个的在优化的时候是一个三个神经网络个体
一个神经网络客气那我们现在是不是可以把神经网络分开我们可以去 involve 这个神经网络的某个特质的功能对吧某个特定的功能但现在神经网络它是一个配合你也不知道神经网络这块负责这个功能神经网络的那块负责那块功能你是不知道的所以你就不存在像基因基因只是个概念对吧就是说在我们这个地方基因是个概念你不知道这个基因到底是我们在机器学习里面的是
几块这个 node 神经网络哪一部分是对吧你得定义对那应该是有些法管我们可以讨论我们和随身讨论过有些方法可以去做一些实验去看看这个事那就是将来有可能我们再有一些新的技术我我在玩新的神经网络或什么之类的能够做像 dna 测序类似的功能把另外一个神经网络给解开了对对对其实研究上有个叫 module 的来图就是把这个神经网络把它
Decount Zippo 叫什么叫分解可以分解性那现在 Machinery 的技术是不可分解性所以这个其中有一个研究的点就是让就可以分解对吧就是其实好多问题我们本身好多问题都是可以分解那现在就是人工智能这东西做分解的现在问题就是其实很困难
很困难所以人工智能理论上讲也不光只是计算机科学的这个主要的研究方向了对吧就是说你是需要跨学科的把它综合起来对这当然这是我们的一个方法论了这不是不知道其他研究者怎么看可能我们比较 open minded 吧我觉得研究就应该这样就是你不能只是在自己一个领域里面那个闭门造车肯定不行你必须要有个比较宏观的理解对吧因为各个地方其实是相通的就否则就你的 impact 就不会很大
提到这个我想再聊聊艺术因为我知道你其实也特别感兴趣艺术跟这个 AI 的结合这个我们 AI 能替代艺术家吗在将来对现在可能不能然后我觉得这个现在所谓搞的这些人工智能去艺术创作我觉得只是辅助它不可能完成艺术的目标当然这也是我个人理解艺术的目标这个谈到艺术每个人都有每个人自己的见解
所以我的一个看法艺术是干嘛的艺术是是在表达你的内心的感受的对吧它是表达你的作为一个人对吧你的 human 作为一个 human condition 你作为一个人你这个在这个人的这个状态下你的感受的 technology 呢是 improve human condition
对吧就我们提高我们的这个对整个科学的理解科学提高我们的理解非常 curious 我们从哪里来我们到哪里去对吧科学人对这个理解那么技术呢就可以提高我们的生活质量那么艺术呢
它不是提高我们的生活质量它是对我们生活现在这个状态的反应你为什么对这个艺术会有一种其他人看法就啊这个就好这个为什么因为他触到他的心灵了对吧他们的共鸣就我觉得好的艺术毕竟是一个必须要会给你产生共鸣
而且它必须要是不是语言能表达出来如果是语言表达出来的当然不能说不是艺术你写作也是艺术了那我讲的这个艺术可能是其他的非写作的非语言表达的这些它是没法通过这些表达那就我就需要一些艺术创作来跟其他人进行共鸣那好了那如果是这样子的话那机器怎么能帮助它能辅助你去设计对吧就比如说你可以有各种各样的手段
那么最早呢我们有毛笔绘画对吧中国咱们这儿有这个国外的是这个油画然后后来当代艺术甚至都不是绘画就是当代艺术就完全看不懂了但是我觉得就是它里面的精髓我觉得存在它是对这个不管是个体啊是创作者他的内心的表达
他其实我的理解当代艺术已经完全跟创作和被观察的人完全是改变了就是你甚至是观察的人你看的人他都是创作者就不管怎么说但是他是对类型的一个
向外的一个 subjective 的一个 experience 的对外的一个表达主观的感受对吧对外的一个表达这个表达不管是艺术家本身还是艺术家 facility that 对吧就是他可以做个艺术笔这就是让你进入这个环境之关下他能够感受出来那他去表达的时候他都是一份非文字的啊
非文字如果文字的话就可以写作非文字的非语言可以表达的或甚至会视觉的甚至所以现在你可以看到各种各样的艺术它不是用画画的这种表达手段它是用各种各样的手段那么 AI 就给它提供了新的手段
所以你可以看到现在的一些艺术形式跟 AI 套关的它靠的边的它就是 AI 作为它的一个创作手段有些艺术家专门就是在这个方面努力对吧我觉得这是一个和艺术更结合的东西另外一个我觉得是说艺术反过来对 AI 就是比如说科幻片对吧它是对 technology 对人们对 technology 这个主题
他的主管感受那我对他表达的话最早这科幻片是通过电影的形式把它表达出来对吧那么我们甚至可以看到最近的一些电影电视剧啊包括那个叫黑镜是黑镜吧对黑镜黑镜然后包括一些其他的吧其实对这个 AI 啊对这些新的 technology 啊他的这个
就是存在对我们以后的人的何去何从发展他的这个 condition 这个焦虑对吧
进行一些表达它的好处是什么呢我觉得就是说通过这些艺术的创造可以把我们人放到一个那个样的一个禁忌情况下产生讨论 otherwise 你是不可以你只能在自己脑子里面想象吧比如说他做个电影或者什么就把未来如果发生会发生什么情况下我把一些 moral 的 ethic 就是道德方面伦理方面
对吧这些东西我可以在那个场景下可以讨论了就是电影形式吧当然你可以各种各样其他的艺术形式然后可以对这个 AI 作为一个 subject 作为讨论有现在有好似一个 signularity 未来就是可以达到一个点 AI 的这个 intelligence 超过人类的 intelligence 按照这个发展的话那
那是不是在那个情况下发生什么事情那通过这个艺术的演绎的方法一路表达就可以让我们现在也可以去探讨这样的问题所以我觉得这个连接有两点刚才讲的一个是 AI 作为主体创作主体
然后还有一个就是说 AI Enable 这个 Art 去做一个新的形式但是 either way 我觉得就是说你让 AI 去创作一出现在肯定是不行的对吧这也不是我们希望做的我们还是觉得 AI 就像你说它是个 Technology 它可以帮助我们做很多事情可能我们不想做的或者是能够帮助我们提升我们很多技能但其实我们并不希望 AI 完全替代我们的创作能力所以像什么用 GDP
或者写一个剧本什么之类的事情其实并不一定是最好的场景对对对对对它可以作为工具是可以作为用对吧没问题
以后的机器真的是可以创造艺术了那你就没法控制机器了因为它有自己的主观感受了那它就有意识了对吧对有意识的主观感受了那就完全是不一样了对吧你得把它做一个个体存在了跟我们一样的个体存在了对但
对但你刚才提到说你现在研究比如这个多肢体的这个决策但其实你每一个还是把它当成一个 agent 还是把它当成一个机器是吧然后你对每一个进行优化还是说你其实已经把它当成一个组织然后是在这个平台上所有的肢体都进行优化
其实主要是看它的那个优化单元比如说我们多次体制情况下呢我直接举个例子啊比如说咱们互联网就我现在拿大家都熟悉的搜索推荐广告来举例搜索它想优化它的这个比如搜索的点击率对吧推荐的话它在优化推荐的那个推荐给你的东西是不是相关然后广告对吧它想优化广告组的利益或者是样化平台的利益或者它想赚钱对吧
这三个目的都不一样它每个都有单独的算法那么你会发到阶段大家都在优化各个算法然后优化到最好那这时候你会发现哎我下面再怎么去提高呢我就要提高他们能不能一起合作
或者一起竞争对吧就是说他们的目的是完全不能说完全不一样有些地方是可以合作有些在随意场地上是可以合作的有些场地上可能是竞争的或者说有些是他们之间的这时候我们就可以希望能够达到这个平衡或者如果达到了平衡这平衡可能不是我们最想要的可能有些就像 Prison Dalan 对吧他可能最后的纳斯送列到纳斯稳定状态对这个
不是有好处没有好处的对吧他们按道理应该可以合作起来就你怎么样通过一种讲诚的机制使得他们就可以合作了本来可以互相诋毁的那现在可以合作了所以是你可以把它想成成为未来我们必然会存在一个什么样的社会呢其实现在也已经是这样了就是我们有人对吧还有各种其他的这个决策是算法给我们提供的然后不光是一个算法它是各种各样的算法在一起的
所以这个社会里面已经存在了人各种各样的算法他们要我要生存在一起就会存在人和人人和人的这个已经处理好了那可能用我们现在的法律道德什么都搞定了对吧机器和机器 OK 对吧机器和人这个都需要马天一的研究人和人我们已经有了对吧我讲的就是机器和人
机器和机器明白了所以但是在这个情况下你像人跟人之间的这个是因为我们有一套法律来约束大家但那将来的也是就是说像机器跟人或者机器跟机器之间我们也需要一套通用的这个比如说 ISAC 标准啊或者是一套机器法律就是来约束整个大家的行为吗
对你讲的很对所以这个就法律可以学的法律也是可以学的对就什么样的法律什么样的法律我想达到什么样的目的 OK 那这个在博弈论里面叫 Mechanism Design 有一个领域叫机制设计我怎么样设计一个机制使得大家都有这样的行为举个简单的例子那个
在广告里面有个排名竞价竞价的时候就你竞的什么价我选最高的然后我同时呢付钱的时候你逼的五块钱我就最后你付就付五块钱对吧这个时候大家会发现呢你如果是干这样的干呢每个人都会 lie
他会逼的时候呢他会尽量逼的比他真实想认为的这个价钱要低那有些这个这个经济学家就就来了啊他说哎我设计一个机制这个机制呢就是什么叫机制呢就是规则这个规则呢我让你 telling the truth 说实话那怎么弄了他就说叫呃 second price auction 就是呃二价就你逼的 10 块钱
我不要你付 10 块钱我要你付什么呢我要你付第二个最高的你逼的第一你赢了对吧
你排第一还是按你随排随随排第一随行对吧但是你付多少钱呢你付第二个这时候你的心里面可能就是这样哎这个反正我那个就是都是第二个价钱嘛不是我出多少我就要付多少对吧有可能就毕的时候我就其实就就你会有一些理论分析在有些特定情况下或者说在有些假设的情况下那就是 truth telling 你就会 tellthe truth 你认为多少钱你就并多少钱这就是一个最简单的机制设计是说我 design 我的规则平时
in such a way 让你的行为符合我想要的东西就是说等于我设计一套规则然后在正常情况下大部分人如果按照这个规则去思考的话那你就会做出一些行为是我想要的但如果有那种个例的话那他还是可能对你的假设对你讲的非常对你讲的假设前提是每个人是 rational
rational 对吧它是理性的所谓理性就是它最大化了自己的 utility 所以这个问题是以前这种机器设计对人的啊机器设计对人的但是现在机器设计对机器对 agent 那就不存在这个问题因为每个 agent 都是 rational 因为每个 agent 在设计的时候就是把它设计的 rational 对它是优化了某个对对优化了它某个特定的这个目标函数的对吧我们在设计算法的时候我想最大化我的人脸识别的
准确率对吧我想最低化我的错误率我下棋我想最大可能的赢你 OK 这都是非常 rational 的
那你就是你可以设计机制了对那将来这个机制是不是也会有一些就是说更加官方的标准或要求啊就是说当然你在一个在一个商业环境商业情况下我每个公司肯定可以设计自己公司的机制是吧但是你最终 eventually 是不是所有系统也还会需要更好的联系就像人跟人嘛总总还是在不同层面你会需要有接触的啊对对对就是讲对就这个 government body 当然谁去设计这个机制有可能比如政府啊跟他把数据过来我去
learn 了一个机制然后这个机制 implement 对吧 reinforce 这个机制或者是说我是一个广告组我根据这个情况我就设计我的大家广告算法都必须这样子来
就是你讲对它肯定是有一定的约束力就是你得有一个去约束的方法因为它是规则嘛你就必须要遵守那肯定它有一定的法律去实现它还有另外一个就是我鼓励大家都交税对吧我可能有些 incentive 鼓励大家去交税我可以有些地方免税我怎么去免税我怎么去那个这东西都是可以通过机制设计的嘛
是吧那这当然是对人的就现在这个实现的这些东西税务局他那个税法怎么定他可能如果比较呃有一些机器学习的东西啊一些大数据的话他可以通过这个方式来对吧将来同样应该可以跟机器收税吗对吧他如果伤那么多 GPU 的话对我们环境破坏这么快应该作为
好像现在是不是有一个税啊开始大家讨论这个给机器人收税啊是吗现在有在说有好像是这样就是说一个公司如果雇更多的机器没有雇人对吧那么本来你有人的话你是对人有各种各样的税的嘛你现在雇用这个雇用机器了也不给他付工资什么东西政府也收不到那个 e-comp tax 之类的好像有一个说法开始考虑这个东西了
所以人工智能不光只是要从技术层面考虑这些问题从商业层面更多的是对政府需要有更多的方式来去考虑这个问题所以这是个综合的对吧你看到这些场景各种各样的场景都会出现了这场景都会出现什么情况中国艺术表达让大家感受到对吧
但艺术表达有时候但我觉得现在这个人工智能等于有达两个误差要不然大家就觉得这个是万无不能所有事情都是可以做到比如我们举例提到这个对话系统我记得几年前有一个电影叫 HER 是吧就是所有人一提就会说啊像 HER 那样子但今天技术远远还达不到嘛对吧就是其实技术还没有达到要不然另一个就觉得说人工智能只是作恶的就是这个人类都被机器取代了然后
其实让大家都觉得特别恐慌其实我觉得艺术表达可能也会有这种问题出现
我觉得我还是 positive,当然这些他艺术必须要,他这些表达都要夸张嘛,对吧,他不夸张,他不 shocking 的话,他就卖不了钱,对吧,所以就是他的表达方式可能是要让别人注意,引起了 attention 是需要这样的,对吧,但是我进 general 我觉得还是比较 positive,他只是一个 yet another technology,可能是个 revolution 的 technology,但是他只是个 technology,去追踪还是取决于人怎么用嘛,
自动驾驶啊今年不是说自动驾驶非常火吗什么元年之类的好像每年都说元年说了好几年了这个事 Level 5 的就是好几年前就说在今年就应该能实现但是
今年肯定实现不了对但是我觉得就是说看到这些自动驾驶上路了我觉得就是就不止 Tesla 如果 Tesla 是自动驾驶的话就不止 Tesla 在上路特别是在咱们中国上路了那我觉得这个就开始了一个快速增长的阶段了因为你上路以后就有数据了对吧上路以后就有数据上路以后数据以后就会就会有问题啊这些问题是不是实验室的问题而是真真正正场景的问题了所以迭代就会快了然后
然后资本也进去了对吧资本又进去以后就成了正循环了然后大家又买单了那就更支持这个了所以这个东西还是要循环就是你还是要有一个商业场景然后你有产品出来然后你能采集更多的数据你才可能把这个滚起来是吧否则的话你永远就还是只是一个实验室的一个项目那样子对对对 rich get richer 就是对吧就是你数据越多你就更有可能成功
能聊到之前你的那个 startup 吗从做研究到真正做公司你当时有什么比较大的这个挑战或者是这个觉得 shock 的对很有意思就是我觉得这个是个很好的一个经历就是我当时就是觉得只是写在 paper 里面然后别人拿去用了然后给
提高了效果好了那为什么我们自己不能去搞了因为毕竟是我们自己对这个技术了解嘛然后就探索当时主要是做互联网广告这个地方我们当时一个 crazy 的 idea 就是说哎这个互联网广告可不可以变成像股票交易市场一样对吧一个 futures marketoption market 期货市场我们要做的一个互联网广告的交易市场你想想看就是互联网这个里面的大的驱动哈
其实还是主要是广告那 FacebookGoogle 啊他是广告公司你看他的 revenue 啊
大部分都是这个那咱们国内的对吧也是一样那这个里面的这个这个 transaction 那非常巨大他又不透明就是这些东西都是好多 nd 交易或者是个手动的交易对吧他其实真正的执行可能是自动的但真正的 actually money 的 transaction 是手动的对吧包括这个 deal 这个之类那我们就当然讲就规的 opportunity 为什么不用我们的 technology 啊 bidding 啊算法啊我们的 pricing 的方法
这个然后就跟咱们学校老一三比四里聊这个挺挺好然后他说我们可以提供你方的呀或者吧但你可以真正做的话你精力可能不行啊或者精力有限我说没问题我可以百分之百弄他说那最好找个 partner 后来我就正好一个我的那个合作伙伴啊后方的后来是他正好建桥那个 mbab
然后他也有这个相同的 idea 他就发了信给我他是做 business 他在 NBA 对吧他就是比较擅长管钱对吧我这个人又管不了钱正好一开气喉那行我们这 idea 挺好要不我们起动然后那时候就我们就花了大概半年时间我们俩就在 phone company 之前就走遍了伦敦的所有大大小小跟这个业务有关系的因为伦敦的好处就是说在这个非常小的那个两公里这个 square 里面你会找到什么样的人都能找到
但是里面什么样的人什么企业性的学都有对吧或者是不让之类的都在这有所以我们就聊了很多很多人然后最后把这个基本上想法就啊想好了我们就然后去入一层房然后就在做然后其实然后中中间过程当中呢
我发现很有意思的就是说让我比较一个体会的就是说真正最后企业起作用的并不是 technology 或者说 technology 并不是那么重要重要的是
产品对吧产品产品产品是重要什么叫产品就是你得你得有人买对吧你得有这个功能功能是别人需要的这个是非常重要的然后呢嗯所以在这个也是学习当中对吧那个也是整个的学习过程我们也是瑞士了不少然后我们做了一个就是必顶的产品我们之前甚至想自己做那个 demand side platform 就是相当于直接帮客户去做必顶
那么甚至是我们想做一个交易市场然后给直接给但是我们发现这个地方这个需求量其实并不是那么大为什么呢因为其实你技术上是对的就算你技术上对但是它整个的这个 industry 整个的这个或者说食物链对吧它不允许这样的去做一个透明的交易市场其实百分之多大多少的这个 transaction 是 Google 的还有 Facebook 它这个交易所都是 closed 的
他只有通过 close 对他不希望透明对吧那就做做第三方
你可能也搭不了哪边去后来我们就觉得还是关注做在技术上面我们 provide 一个 service 产品呢是在我们的擅长的 technology 做 bidder 然后给 dsp 或给什么用所以这样子挺好后来我们公司后来就被美国的一家这个 dsp 收购了然后把这个技术就一直到他那个他那个场景里面就这样的一个过程所以我觉得从过程当中呢我体会到了这个还是不一样的这个
就是说跟研究不一样我当然要 deliver 你的 technology 这个不用质疑但是同时最核心的是产品因为它完全是按商业运作你完全是是不是最后能不能赚到钱这个就是非常明显的一个 measurable 的东西它产品的形态这些方面可能考量的因素更多一点其实
其实这也是 UCL 很好包括整个英国大学都非常支持的一件事情不一定就是各个学校不一样就看什么学校我觉得我们学校还是非常 open 非常支持 UCL 有叫 UCL Business 的部门专门给咱们老师做这方面的服务包括 founding 都没问题但是不是所有的包括比如说 Oxford 就不是什么体操
对他希望老师就是说你专心的不要不务正业啊你专心的干你自己干干干的事那你那会就是尤其在一开始做阿米格干嘛的时候你那会也还继续在音色还得上课是吧还得教课啊
对没问题对我们学校都是可以然后你只要跟系主任讲说这个我们有一个 spin out 我们想多可能时间上面可能更多一点放到这个公司上面没问题啊就是我觉得他看的比较远就是他认为如果这个公司成功了对吧变成 google 了那这个你知道时候你去捐点钱给学校就完全超过了世界所有的对吧
你让这个老师去做这个事就是 100 个里面有一个是 Google 的已经够了对不对比如说 DeepMind 这个 impact 对 UCL 的影响是非常巨大的非常巨大的对吧他是老师有老师在里面又有又啊学生对吧在里面放你这个所以这个对对然后你再去捐款再给学校去捐一些款那这个是完全不一样的 impact 所以其实学校的领导是
能看到这个他意识到这个东西不光只是 paper 对吧这其他这些软的这些 impact 对这个学校的这个整个的提升是有非常重要所以他鼓励这个对对对迪夫曼迪夫曼在咱们系开的课我还去听了吗我还跑去我去听了整个几节啊就做的还挺好的对对对对对对对招生啊对吧然后对这个影响啊然后对这个对我们的这个技术给交给我们学生都是有很好的
刚才你也聊到了就是你现在其实在夏天的时候还做一个有点像集训营一样子的 Summer Camp 是吧主要能给大家介绍一下这个 RL ChinaRL China 对我们夏天就是可能在八月份左右吧就是想花一个星期左右然后我们有一个
就集中的课程这个课程呢会比较宽泛介绍从基础到最新的跟人工智能有关系的一些技术特别我们聚焦在什么方面呢聚焦在角色智能就是这些大家关心的强化学习啊 Multi-agent, digital making 啊
这些东西我们可以从最基本的甚至可以开一些讲一些最基本的 machine learninggame theory 如果不是很熟悉的然后到最后的
学术界最关心的这些问题我们可能会有一些实际的东西让大家上机可以去把学的东西可以直接能够做一些 coding 能够做一些小例子能够加深自己的印象对吧然后我觉得这个数字就是主要可能是比如说本科生研究生对吧不管是这个领域的还是不是这个领域的只要有一定的技术上的基础比如说一些数学上面的
工科的数学对吧然后可能学习一些计算机方面的比如说一些
coding 的一些东西啊有些经验要会 python 吧对至少要会 python 我真的就有点问题然后对然后数学上面可能一些大数据啊或者对 machine 的一些了解吧然后一些 data money 的一些了解然后做过如果做过一些项目可能更好对希望大家可以踊跃报名参加啊我们可能有网上的也有线下的这样的一个形式从哪里能报名啊你们是有一个公众账号大家可以来关注一下对我们有一个叫
R Air China 的公众号你可以在微信里面可以 search 一下可能就是叫 R Air Reinforcement LearningR Air 对 R for LondonR for Roma 罗马 R Air 然后可能不是这个公众号可能不是 China 可能是 CM
CN 是 China 的简称吗 CN 因为好像不允许有这个 China 不允许有中国对对对所以我们的公众号可能叫 RCN 可以去搜索一下然后我们会关注一下然后我们可以我们到时候如果有报名的话就在上面可以会找到这个报名可以尽早报名对这个相信一定火爆我去年也是听过两个课非常有意思对对对谢谢谢谢非常火爆
OK 好那非常非常感谢那个君今天的时间那想最后我想再问一个问题就是就是从你的角度看你觉得在之后我们说三年内吧就是在 AI 这个领域里面你觉得要突破上讲会有什么重大的突破吗或者你希望看到什么重大的突破吗
第一我看我希望这个自动驾驶可以能够达到一个一定的水平不是不能是 L5 的这种完全是在高速上或者什么小路上开的那种但是结合着这种通讯比如说它路上有各种各样的部署了各种各样的五级或者六级信号通过这些明显的标示的东西可以完成一些局部的一些自动驾驶对吧这样子可以改变我觉得可以非常我不
我不讲 revolutionize 吧至少非常大幅的让每个人都会感受到一个从了互联网以外的咱们实际生活当中一个很大的一个就是黑暗
AI 给我们带来的一个这个生活上的便利性对吧这是一个那个然后还有就是决策这个地方大家可以看到各种各样的决策的一种就是有些我们就是本来是人进行决策的我们结果通过机器可以帮助我们这样子可以大幅的降低有一些工作的这个比较 boring 的或者比较 labor intensive 的这些场景呢会被不管是 robotics 或者其他的这些优化的算法能够替代
让我们人可以做更多做在艺术创造上面它更加这个需要这个主观感受的这种心灵之间的交流吧心灵之间的创作和交流更多的有更多的机会我就能有你更多时间来我的播客里录节目了对对对那个 paper 都可以找机器来写了只要把那个数据丢给他对啊对啊对啊那我以后就不找学生了我就找机器去玩了
因为 paper 不需要这个感受的对吧就是列举的事实哎对对对这个 paper 可能最最容易是机器实现的因为他呃不允许有感受的对吧好好的非常非常感谢你的时间那个我希望下次还有机会请你再聊我们可以接着聊我觉得像 DNA 啊然后继续聊这个意识我个人也特别特别喜欢意识这个话题好的好对其实我觉得意识啊包括这个呃基因这些东西我们可以专门做一个主题包括
艺术对吧我们可以单独可以我们可以单独一个主题对好的非常感谢领导邀请也注意你这个就是 podcast 的红红火火谢谢谢谢大家收听拜拜我们下期再见拜拜再见啊拜拜感谢大家收听我们的节目欢迎给我们留言你的看法喜欢我们的节目不要忘记订阅啊我们下期再见