珍爱生命走进科学欢迎收听科技修道院
欢迎来到科技修道院今天呢我跟东东腔我们又把樊辉老师给请来了哎呦总算又来了上次跟樊辉老师聊的一半戛然而止但是后面呢是这个意犹未尽因为那天聊的时间太长了好多观众啊这个听众啊催更甚至有人说我们那个是不是要准备跑路了挖的坑底填上是吧没有挣的钱不至于跑路
今天咱们就还接着聊樊老师后面还有特别多精彩的故事跟围棋和 AI 相关的上回咱说的哪来着咱上回是谈到李士实大战阿尔法购第四盘第四盘就是李士实赢的那一盘一个小高潮第五盘就没输了第五盘没来得及今天还得请您接着顺着这个话茬往下聊
聊那个当时三比一嘛对吧对三比一然后反正我就记着第四盘棋那个挖那个确确实实是震惊世人那一步经常说是神之一手嘛虽然那步挖不成立我记着特别清楚的一个事是比完赛之后其实大家看那个 AlphaGo 那个电影也能看到对对对比完赛之后其实整个团队
一般团队都很紧张为什么紧张呢因为无论如何在某种意义上讲是李士实找到了一个 bug 而且听到大家都去讲内部挖不成立用人来下的话很容易就能把那个棋破掉没什么用所以当团队去找的时候会发现一个问题很好玩说内部挖在 AI 的逻辑里边基本上就没有出现过但是在新闻发布会的时候李士实说内部棋是他的第一杆
我记得特别清楚这块大家去讲说是当然 Dave 在那个店里面就说他说在 AI 看来这部棋可能是几十万甚至就反正这个倍数特别大反正棋盘就那么多就那么多点反正几千分之一的概念会去下那部棋的可能性非常非常小
但是李士实的感觉确实第一感就这个人的这种思维模式确确实实有自己独特的创造性就那一步棋八个二分搞糊涂了出八个了所以第四盘棋下完之后整个大家的气氛就不一样了按理说已经三比一了这个比赛就比五盘那三比一的论赞奖已经比完了对吧你就算李士实再赢一盘
就胜负已定大家为什么突然激动了呢我就记得特别清楚第四盘的时候我都不知道谁上哪个说的第四盘下到一半的时候都觉得李诗诗肯定要输了所有的记者都开始离场因为那个比赛现场它是两个大房间一个房间里全部都是韩国媒体全是韩国媒体坐满了另外一个房间全是世界媒体
里边包括什么 CNNBBCAHK 等等包括 CCTV 都在里边然后到第四盘的时候因为前面 3 比 0 了然后第四盘开局的时候都说也是不行了输的惨不忍睹大家开始撤了都回血管去了回血管了没什么聊的了对吧觉得这个关注度已经下去了下到一半 78 手一挖完阿尔法国开始出问题了
这个时候就所有记者开始打电话回来回来都回来这边可能有新闻了就开始往回跑你知道吧就真的是这样所以那天晚上就是到新发布会的时候里边那个人就有一个多不是上个位说了吗其实特别有意思李士职明明是赢了对吧不愿意那会换进到新闻发布会现场的时候
按理说他赢了应该很开心黑着个脸捧着脸进门一句话都没有也不笑然后那边的所有的新闻媒体开始叫唤就是特别厉害那种欢呼然后他绷不住了他才乐的所以他其实就是内心极其骄傲极其开心但是还绷了一架搞了一个现场的气氛所以那天的整个媒体量特别大我就记得特别清楚比完赛之后
团队开安会就针对这个问题找了找反正就是个 bug 但这个 bug 就是我们之前就遇见到的就是遇到特别复杂战斗的时候 AI 有 off go 可能会出问题但是谁也不知道在什么时候会出问题谁也不知道不知道怎么触发它没人知道是吧后面的故事能讲到这个我是怎么触发的没事聊一聊这个但是大家都会关心一个事既然李士已经输了大家会觉得可能没必要了对不对但我今天特别清楚
比亚赛之后呢我们几个在那聊包括那个 Demis 哈萨比斯我们也聊包括黄博士在一块坐着聊虽然我们赢了但是 3 比 2 和 4 比 1 差别还是挺大的
我们都点头是差别挺大的你说三比二吧虽然是赢了但是它毕竟很接近毕竟人在很多地方可能先天的不足机器我可以说一个简单的那机器里边连着多少的服务器人大就一个服务器对吧对吧时间有限这么多压力可能会觉得未必就能够有说服力但是四比一
就感觉还是好不少压倒性的了还是压倒性的了对吧我当 5 比 0 最好了 4 比 1 起还不错所以大家就不要担心因为毕竟出现过一次出现过一次这种 bug 以理事实这样的水平他可能能觉察点什么他这一晚上琢磨琢磨对他找着门头了对一定能觉察点什么不一样的地方因为毕竟之前没有人跟他说过 AlphaGo 的弱点是什么而这恰恰是我们人最强的地方因为我们人有个东西叫做策略
因为我们人天生的我们知道我们的不管是资源还是我们的能力都有一个上限那么我们如何用我们有限的资源和能力去打败比我们更强大的对手或者我们人本身又很渺小我们去挑战自然界该怎么办我们有策略这个东西就是以我强的地方去打他弱的
田鸡赛马嘛对这是人最擅长的东西关键这个 bug 当时也 fix 不了就那一晚上时间但是他有个概念就是他知道哪个方向可能引发就有机会对不对对我是说对这个 DeepMind 团队来说他也没什么办法其实当时在跟李诗诗比赛时候用的那个版本叫 V18 在跟 V18 比赛之前 V19 出来了第 19 号版本出来了但是当时没敢用
后来证明没有用是对的因为当时 V18 版本是证明是气力足够高的已经绝对可以挑战世界顶尖棋手了而且能赢那么 V19 没测过我都没跟 V19 下过所以都觉得这个有点风险所以没有用其实那个 bug 以李士实当时的水平朝那个方向走他可能越下的越多就越有机会得到更多的 bug 就战斗这个事
因为职业棋手尤其像他那个水平是很有机会复现这个东西的其实在第五盘的时候就出现类似的场景其实第五盘可以说是有点有悬念的一盘棋非常有悬念的一盘棋首先第五盘开局的时候我们能感觉到李士实的这个就是他这个信心跟前三盘是不一样的完全不一样他信心大多了
老太太摸店门抖起来了对了抖起来了然后那边你就看韩国地方解说你知道吗就特别激动特别亢奋觉得有机会了要赢了尤其是在第五局一开局的时候出现了一个特别有趣的对杀就立刻开始战斗下了很复杂的变化这就是他的策略了这个对杀就是感觉里就是阿富汗小小怪怎么吓着吓着自己死了而且死的有点莫名其妙
就这个死的很奇怪你知道吗他不是说是有异气子就是干死了而且他死的地方并不是别人吃他就脱烟了是别人吃他他走了好几步然后不走了然后他的那个奇形在我对 AlphaGo 的理解里面是一个特别容易引起 bug 的奇形那死了以后当时盘面胜率怎么样从后面我们去看 AlphaGo 的胜率我们看到其实 AlphaGo 我认为自己依然优势
那如果用现在更强的版本去看呢问题来了这就问题来了他如果这么下他一定认为自己优势对啊因为他有可能没有判断自己死了或者没有死透就是当时的 AI 有一个缺点这个我说的特别专业了可能真的是得会下线听懂所有跟一路线关联的战斗吃子 AI 容易犯毛病
当年我要给李诗诗讲讲这个她说不定就赢了她要赢了一百万还得给我分点她没找我所有跟一路线战斗有关系的 AI 容易出现 bug 就是她不是说不知道自己死了她是不知道自己死没死透她只要自愿自己没有死透她的胜率就秒摆不定当她有一天发现自己死透的时候胜率会瞬间直接跌到谷底没有任何办法了
就让他会产生一些犹豫他自己判断不清我死没死就是他知道自己死了没问题他知道自己没死也没问题当他不知道这是什么的时候他就完了我相信这是所有 AI 最可怕的问题就是像他来决策的时候而没有决策依据的时候他就出现巨大吧咯嗯
而人这方面是有心理能力的我们会用一种我们自己的算法我们做一些止损如果我看不清楚那么我选择一个最坏就这样的东西但 AI 没这个逻辑它只有好坏对错没了
至少当时的 AI 是这样现在可能通过大圆模型这 AI 有些新的逻辑了也说不定至少现在黑盒不是还没人拆开吗虽然据说最近有一些论文讲到了拆黑盒的一些想法但当时在第五盘的时候确实出现了一个场景
然后李士实就挺激动的所以实际上那时候李士实是优势是吗如果正确的判断这就是没有人知道的那又如何用现在那个更最强的 AI 去给他打分呢我没有跑过但我默认我默认那个时候的 AlphaGo 应该是没有判断清楚那个死活的因为他的下法给人感觉极端的沉着
但那个给人感觉应该是不太对头的那个起下方应该是不太对头的所以我在现场我其实挺紧张的你们人类怎么判断你们我也人类别把我抛开我也是人类二百够太强了所以没有人知道
到底是真相是什么没有人知道不敢不敢妄下结论包括当时我记着比完赛之后我回到北京我拉着古丽和周瑞阳我们三个人我拿着 AlphaGo 我们一块把这五盘棋的 AlphaGo 的底层数据跑了一圈我们还做了一个五盘棋的解说讲解等等就是写出来的稿子给他发表了在那里边 AlphaGo 当时的版本他依然认为自己没问题但是他的变化稍微有点怪
你说他一定不好吗不见得一定好吗也不见得所以我说是个悬念我理解那个地方他一定出问题了但是问题绝对没有第四盘大但是李士实当时感受到了但是那个地方战斗他眨眼耳指就没有积蓄
如果那个战斗继续下去了可能会出事后面主要是李士实在后面我记得好像有个地方尖冲一个特别臭然后阿尔法勾局变得很顺利了然后慢慢慢慢哪怕是自己死掉了也是很稳定的很稳健的赢了这盘棋但是那个局部如果那个 bug 真的会被激发出来这盘棋路似水手还不确定你看电影里边也是其实团队也感受到那块有问题
包括在视频里边第五盘棋一直很紧张就是那个地方就是那个局部战斗阿尔法购死的地方一直到快下完了都没人碰大家都特别担心那个地方阿尔法购只要往那边下了他很久出八个一直没下这也不知道是什么原因反正一直没有下然后斯文州很紧张到真正全局已经基本定下来之后他才下确实死了胜率还稳定着呢运动赛已经赢了
反正最后是赢了两目半左右吧最后包括电视里面不也说吗那个一屋子人就是一屋子人都对着电脑对着那个显示器这边他都很紧张等着结果都觉得很细这期判断不清楚然后那个 Dave 就跟那个 Demis 开了关系哦 AlphaGo 刚刚认输了
什么然后我开个玩笑我这没忍住我开个玩笑那是真实场景但是里面有纪录片就是在现场他开了一个天大的玩笑其实没有的事然后那边说很快韩国的解说就出结果了说理事时大概输两步半然后有职业企业这边被这个输了他们就踏实多了然后后来也是没有暑期直接认输的直接认输了其实里面还有一个小插曲什么插曲
我的角色其实很特殊嗯我角色是什么呢是我是裁判对啊我裁判干嘛的鼠子呗对我是鼠子裁判嗯其实在现场有三个人我不是上次说了吗一个小姑娘负责安中对另外一个韩国人就是负责宣读比赛开始等等我呢是负责鼠子的嗯
一盘都没数啊一盘子都没数到第五盘了都快到单关了我心想总得让我数一盘了吧对不对我都坐着这么多天了
李适时认输了在我心里想我这个鼠子裁判哎呀这个当的真是没数上一盘都没数上照样能领钱吗没数上这个就不聊了领钱的事就不聊了反正第五盘起李适时他赢完输完之后吧反正感觉不到他特别沮丧
因为第五盘棋他本来就是没有什么负担来的在他看来第五盘棋只要全力以赴拼了就好了对因为他毕竟赢了一盘其实最可怕的不是输是一盘不赢对对赢了一盘不够而且这也是唯一的一盘了以后再没有赢过这个顶尖的 AI 了毕竟从他之后所有阿尔法购参加的不管是比赛正式的非正式的非正式的跟我多了那不聊了正式的对局
阿尔法购再没输过一盘都没输过了所以李士实那盘赢最后一盘是绝响了最后一盘而且那盘赢真的是当着全世界的面赢的这个差别挺大的真的挺大的所以那个时候李士实都快成民族英雄了韩国人他的性格比较特殊我记得整体到后来李士实只参加过一次
这个综艺节目好像上过一次也比较腼腆不怎么说话其实以他当时的流量逻辑对吧这个变把线应该不少的那么多人想跟他去聊天说说话对吧想让他上个节目采访他们当时那种场景那么多而且说白了那段时间整个韩国媒体全在报道人际大战然后他赢了一盘
他赢那一盘很多都比拿他比当年的黑客帝国对吧比那个叫 Leo 他那个感觉明明是不可能赢的对吧最后一下还是赢了一盘不过他确实是洗手相对都比较
比较内向一些这不像我喜欢聊不同人有不同的性格他确实是比较比较比较腼腆相对来说他比较骄傲但是呢又不是特别喜欢怎么就表达自己心思都在其上对对他是真是爱其真是爱其如命的一个人
后来呢那个 bug 后来就没了在新的版本里就没有这样的 bug 了就没有人再 dead 过它这故事就远了去了这故事其实在那个人机大战期间谷歌这边来了好多大佬比如说那个 Eric Smith
是埃里克当时的谷歌的董事长当时聊他过来就讲到说是 AlphaGo 对整个 AI 对人类未来的贡献是非常巨大的它的这种计算形式这种可能存在的机器学习的那种潜力是巨大的他来完之后另外一个大佬来了 Sergey Brin 那是谷歌的联合创始人他也来了然后他还会下棋那是我第一次见他所以在谷歌里边包括 D-Man 对这个事的感觉是
还是非常了不起的而且我们当时观察流量很吓人就光特别清晰的一个事就光中国第一天是 8000 多万 IP 第二天过亿了然后韩国就不说了铺天盖地的整个欧洲美国很多都是熬夜我们看世界边的感受他们看一大战的感受半夜爬起来看棋所以那个就影响力很大但是毕竟阿尔法克输了一盘这个事还是让整个团队心中有点别扭
这是一个觉得得把这个解决了毕竟我们会发现它有这个 bug 这个 bug 如果学对外解释的话就是 AlphaGo 有问题这个问题可能现今填在棋上面有一天这个技术我们附用到其他行业这个 bug 可能更严重和更不可修复所以当时就决定需要做相关的研究去解决这个事但是比赛的时间是三月份我记得特别清楚是 2016 年的三月份比完了整个比赛
比完赛之后其实团队这边也会做一个相关的修整也不会那么快就继续干事搞后面的事了也不会那么快反正我记得最清楚的一事是比完赛之后中国有一个年轻棋手在微博上发了一条信息这个信息写的是就算 AlphaGo 能赢李适时他也赢不了我看到那一盘就自己还有信心这个人呢他当时他的
网名就是在他的那个下棋的网名叫浅福这个时候呢有一个明星叫姚晨在底下回了一句自古英雄出少年然后王宇对上了浅福那个姚晨对吧他这脚下什么来着在那个浅福里边脆皮脆皮脆皮来了然后这个年轻棋手呢一下就火了
他直接是第一次火出圈我相信这是科杰他第一次添到流量因为他之前没啥流量他其实在棋圈里边挺厉害的拿过世界冠军年轻有为但是围棋行业出圈挺难对那一下子他出圈了
尤其是姚晨来了一下子这一下子就热闹了然后就风风火火到处开始讲然后这个 AlphaGo 跟科杰怎么怎么样就开始说这个事当然了这个事弄完之后团队内部肯定有想法对吧既然跟李士实下了当时科杰的水平确确实实在某种意义上讲在越往前看一定会超过李士实他年轻啊对吧而且他跟李士站起还不错
年轻它意味着潜力更大那么如果我们想证明 AlphaGo 没有问题或者一定是最厉害的那理论上讲挑战科捷可能势在必行但是有一个巨大的前提那个 bug 得修复了对吧你那个 bug 没修复万一输了呢其实都谈不上是一个 bug 是吧它就是这种人工智能的
不知道在里边算了些什么最后反映出来的一些漏洞就在那个黑盒里对吧就是那个黑盒的弱点你包括现在这个大模型这么强但是他算简单的这个算术题还是会出错现在 DeepSync 应该不会出错了也个别还是有错尽管这个错误不是很多有些对简单的问题他反倒有的时候弄不清楚对因为它毕竟是大型模型对它是统计的东西它这逻辑性我觉得
可能当然人是脑子转不了那么快但是如果给人足够长的时间我觉得逻辑性上不见得会输给他这是有可能只不过从信息的角度讲他的信息量比我们大太多但你说局面的判断这些东西我觉得人是远远不如这个
我是觉得这个人跟机器比可能没法比他能够他能够同时分析海量数据对人的脑子分析海量数据让我看一会儿我都考不住了分析啥呀脑子就晕了就开始饿了想吃东西了开始想吃啥了这脑子不知道跑哪去了所以跟人跟机器比这是比不了的但是机器有 bug 这个事确实有它一定的风险毕竟
人有一个我理解人有个底层东西叫生存这是我们最底层的这个生存会驱使我们在某种意义上讲对我们产生一种保护但是 AI 没这个逻辑所以可能跟人的底层算法有一些这方面的胡扯我理解所以对人来说特别严重的 bug 对机器来说无所谓这可能是存在的但无论如何当时逻辑是我们是要跟柯杰下如果要下的话只能跟柯杰下了嗯
但是得把这个 bug 解了或者得把这个问题解决了证明没问题了才可接下但是 AlphaGo 出来之后其实有论文很多大的公司开始复现 AlphaGo 当时最有名的是决议最有名的是腾讯腾讯做的而且当时说是自己很厉害然后有媒体就开始宣传说是要让科捷跟决议进行挑战他们会觉得 AlphaGo 大概就不会下了等等等等
我记特别清楚我是 3 月那个 3 月 15 号表演几赛结束的我大概 3 月 17 嘛 18 号我就回到那个法国了然后跟那个谷歌这边对立一下然后团队对立一下然后我就给科杰打个电话我通过朋友找科杰要个电话当然了那个当年科杰骂我的时候那就不说了那科杰就反晦这个气啊没关系但是我给他打电话一拨通嗯
他肯定没给我电话号码我还从法国过去的你谁啊我说那个科杰我是樊辉这孩子特别樊老师你好你说他就骂我的时候就不说这话正常的对吧当时看见要是我我可能会骂我自己他没问题然后聊我当时可以说我说不论有任何其他的人工智能找你你都别答应下因为只要你跟他下了 AlphaGo 永远不会跟你下不会再找你了没有意义了已经因为
大概率你会输或者你可能会输一盘你只要输完之后阿尔巴过赢你就没有任何对标了所以在这之前你精神不能破不能跟任何强者 A 一下那么我来给你促成这个事他说没问题
然后我们俩就过电话了这事我在别的没讲过吧这咱们这我第一次讲这个事所以当时很早我跟 K 打个电话所以很早就约下了科杰和阿尔法购之战是很早约下来了但是到底能不能下什么时候下我也不知道因为确实是当时那个巨大的那个问题没解决的因为这事又不是我做主对吧但是对我来说很简单就是我得告诉科杰你如果真想跟阿尔法购下的话
这是唯一的可能只要你到时候心血来潮随便谁搞个比赛跟什么 AI 下盘棋这事就完了就再也没戏了这是一个小插曲然后后面还有好几个小插曲呢
咱说说这些插曲就爱听插曲就爱听这些别的没讲过的然后因为 AlphaGo 这个事在全球的影响非常大真的影响很大咱这能聊谷歌吗能聊因为当时的谷歌这边就是觉得这是一个特别好的一个推广的一个好的机会不管是人工智能 AI 等等从 AlphaGo 团队来说这个事情对微企业是个好事对这个团队是个好事所以当时促成了一个事当时谷歌的 CEO
现在是 Alphabet 怎么表达这个董事长叫 Sander 皮柴叫他皮柴哥你就说他然后呢皮柴哥当时是要访华那访华呢他做点什么项目呢见点神那时候有好多科技大佬比如说那个贾斯伯格来北京跑步嘻嘻埋对吧著名的他们来北京干啥呢总有点事干吧有 Alphabet 个事刚刚好
可以访问一下你也到所以当联系到我我们来促成这个事当时因为如果来中国你要是去搞围棋的事有一个人是绝对绕不过去
中国的骑圣聂卫平聂老你绝对找不过去这个事所以呢我们去参观一下聂道而且柯杰是聂老的弟子对吧这是名之言顺的后面还有什么长浩啊之前有鼓励有长浩有鼓励等等那么有盘国那么多世冠军得见见其圣中国了嘛就促成这个事我记得
我记得特别清楚当时他们对公关市场的一联系就已经定案了就是什么亚太什么之类的包括当时整个中国部的叫东部的头我记得名字叫石伯蒙那个是一个英国人我记得是个英国人挺有意思的
说我们先来就是先跟聂道沟通聊整个参观的行程现在照片还有呢还挂墙上呢聊整个参观的行程谁参加当时我记得很清楚说是柯杰会来然后呢古力也来然后有聂老跟那个 Sander BJ 就是跟他见个面聊聊围棋啊聊聊等等然后想了解一些做推广的事情后面还真做了一些大的推广的事情嗯
当时的涅道呢在刘家瑶那边一个校区然后呢当时的场地还是一个老场地我记得特别清楚往后边走有一个训练的一个楼那个楼啊楼梯就是你们可以想象一下那种八十年代那种铁网的楼梯踩着嘎吱嘎吱嘎吱上去那种楼梯你知道吧然后就那个铁架子晃悠的那种楼梯哎呦
然后就去了就是当时就是踩点的时候他们团队就说这个安全哈哈哈哈
毕竟是谷歌的 CEO 一把手他有现马空了抵着个摔着这个摔一把靠不住因为他不是在办公楼是在小区里面对我去过那个楼特别偏的一个后边的一个楼反正挺阴森的感觉油管做一些修反正挺别扭的
没问题我们这孩子天天上学一帮孩子训练的没事对吧下棋呢没事没关系也都没概念然后那天还请了很多孩子过来北京的孩子对我和他们合影我说
我那边还在捞着了就是这边有几个人跟那个劈柴哥有几个合影你说是不是然后呢我是提前来到北京那时候比赛没多久的事我就回来北京了就联系这个事先踩完点他那个时间倒是把的很准就是住的比较远住在那个三里屯那边然后往刘家游跑那么远的路还时间不能错他们倒是做这方面的事倒是挺严谨的时间把控几点到几点车流量堵不堵都很清晰
到了之后呢往里面参观我就记得是特别清晰在那个车上时候三奶就问我问我说哎那个反正那个我一会跟柯杰如果下棋的话嗯
我下哪下哪他不会完全不会他完全不会那还下什么下那他干嘛要做这样子呢就是必要摆照片嘛对吧你毕竟有棋盘嘛哪怕你说教教我呢也行搞他摆脚上我说你低不去摆天元哈哈
摆天元没毛病就这个比较特殊嘛对不起后来也没怎么下就摆了一下后来也没有怎么下就聊聊天然后呢聊聊天的位置还是在院子里面那个石桌子上就是真的是就是土香土色的我们这个小区里的这个状态然后走这个嘎吱嘎吱的楼上去哎呦那个惊险的一塌糊涂然后那个房间里还特别昏暗特别昏暗然后当时聂老古丽柯姐几人一块
跟着那个 sander 然后开始就是就是类似于孩子们提问嘛来了很多学生就有种咱不管这毕竟是孽道嘛学习的场所嘛学习的孩子们对不对对 AIT 的问题回答一下等等也是一种宣传嘛大家能理解这个事儿
然后当时就问到了之后 AI 啊有没有中国比赛啊等等等等然后那个三子就说我们是一定会为其做一些事情的要做相关的推广等等等等就埋了一个种子所以后来在 2016 年的时候当时涅道跟谷歌就联手一块做了一个大的比赛叫寻找为其小先锋这是谷歌和涅道一起做的当然了谷歌出钱涅道出力去干这个事情
在全国八个城市搞围棋比赛然后总决赛是在北京的鸟巢聂老还请了很多奥运冠军去下棋所以那个比赛呢从聂道来说聂道来说吧它规格是很高的因为整个的宣传就两个 logo 一个聂道 logo 一个谷歌的 logo 这个是规格挺高的你见过谷歌跟谁活动挂的一块俩 logo 这太少了但这个事情其实对双盟都好因为让围棋呢在科技行业会焕发点新的活力是
那么从科技来说跟传统行业关联让他不是那么就是不是那么激进他毕竟是人文更多一些然后呢他这完事之后呢还没完我本来以为这回参观就完事了嗯大概过了一个月这回规格比上次更高了他们又来了这会除了 Sander 又来了一个 Sergey Brin 来了夏尔盖布林也来了嗯
这回又是我听说那楼梯了吧想来走走没有这回没去那个捏到这回去哪了这回去中国庆愿因为你想他每回老去一个地方怪无聊的毕竟三代也在对吧他们去中国庆愿然后当然也请念老了也希望念老在然后国家队等都在那天然后主要是希尔盖布林他会下棋他是真会下棋他是真会下棋
我记得特别清楚那天也是到了棋院之后反正我们下去接的上去之后跟他去聊天然后跟国外队的人聊说话等等然后谢尔盖布林就跟聂老摆了几步棋大概下了小二十步然后下完之后摆摆样子差不多了然后聂老觉得他就是摆摆样子就觉得他棋肯定不行但是谢尔盖布林人家真的是会下棋的虽然水平不怎么样大概我们今天按照咱们国内的水平可能个五级
差不多五级的样子吧反正能码一码然后聂老就说这么着吧聂老说就打住吧聂老他的风格这种气我吓多了你不就是为了照相吗对吧打住打住点到为止了其实我感觉谢尔盖布林是想吓完的他是想吓完的然后谢尔盖布林很意犹未尽因为他是有专门的裁判有翻译的他没跟翻译说他跟我说
回头你帮我复个盘你也老在对面的你也老给你复盘他可能没太好意思然后那个翻译就要蒙你知道吗为什么蒙那翻译要翻普通的那个文那个词他都会这个翻围棋他可能就不会立二拆三他咋翻金鸡独立他听得懂吗知道的是个什么东西吗反正那天包括夏格布林去参观中国区议院的时候
到了国家队当时女队正在比赛她进去看了看棋还问我那个地方怎么样谁优势我心想她真会下棋她真能看懂她真有概念所以当年一直流传着一个梗这梗是哪来的呢是当时谷歌收购 D-Man 的时候就是夏尔盖跟 Demis 哈萨比斯聊过一个话就说咱们做人工智能的对吧这个发展挺好当年的深蓝都知道
都说围棋不可挑战不好用他知道那个 Demis 也会下围棋他也会下他说你要不然你挑战一下围棋然后 Demis 说那我想想当时他们还没做围棋还没有做当时完全没有围棋所以有这么个梗我也不知道这是真的假的我没问过希尔艾弗林我也没有问过 Demis 但我记不清谁跟我说的好像是 David 跟我说的好像是啊反正有这个梗可能跟这个有点关系
因为他们俩都会下包括后来他乌镇的时候才搞笑乌镇的时候有一天我们做测试因为测试嘛就是做内部的是 Demis 跟 Dave 他们俩下了一下午的棋就
就在七万两下了一下午下的可来劲了还行你要是跟咱国内高手比的差不多他大概一段水平肯定比下的还不灵强下了一下午下的可来劲了我第一次看他们下这么来劲我以前以为他就是自己说说会下棋那次我第一次见他真的是在下棋真会下对只不过那个会场也没人把他拍下来那个欺负什么之类的那个后来
他们俩就是参完官之后反正这个中央间隔大概一月的时间我记得是大概在五月份的时候五六月份的时候是五月份吧大概五月份的时候当时我要回一趟国
我回到北京为什么呢因为我在整个比赛期间我是把 AlphaGo 的所有的细节我做了一个记录那个稿子我现在还有这么厚一个稿子我就把每一个瞬间我都写因为我特别崇拜当年的观战记那个叫穿单康城上回说过这个所以我都写下来了比如说在多少分离世时做了什么动作这个棋是什么样子在多少分钟发生什么事当时我都做记录了
然后光这个是不够的为什么我们当时判断如果以我的名义去写一个这样的观战记可能首先我不是穿单康城我其实拿不了那么点文学奖我其实干不了这事其次技术水平上我的背书也不够
所以当时联络两个好哥们一个是古丽一个周瑞阳我们说我来北京我带着 AlphaGo 的模型来跑我们边跑边看着几盘棋我们摆一摆然后把它变成一个类似于讲解我们发表出来也是算是对围棋行业的一种贡献毕竟棋下山之后
这个 AlphaGo 做个自然解说是有必要的再由这些职业棋手世界冠军做一个讲解让大众更加了解该有人给分析分析对对对这个其实价值是什么对吧但这个东西到底内部的这个底蕴是什么蕴含了什么我们得知道呀别光看个热闹对吧因为很多人感兴趣呢而且所有人都感兴趣 AlphaGo 怎么想的
你只看到阿尔法购那么下了它背后的变化图没人见过包括阿尔法购觉得这个时候局面谁好也没人知道就比如说第一盘棋大家千万不要觉得阿尔法购下的是个啥那个布局跟人完全不一样阿尔法购觉得变化谁便宜的呢对吧第二盘棋这盘刚开始阿尔法购就离时下的有点软但是形势是什么形势呢等等等等大家都关心这个事所以我当时跟他们约好了我就来北京了这事才逗呢我就特别清楚了
当时我想我来北京我的目标是偷偷摸摸的来然后偷偷摸摸的走我是逻辑这个逻辑所以我当时约好我当时找了个棋盘然后当时还有天地间在那边我拿着棋盘走然后我在那附近订个酒店然后我说那个地方在春门那边中国棋院不是在玉亭桥吗毕竟有些距离我相信我在春门订个酒店
我能碰到几个下棋的熟人应该碰不到对吧然后我们三个进到酒店大堂的一瞬间我就傻了那一大堂全是韩国棋手塞满了他们都在看我们他们也纳闷的你们怎么听说我们在这呢他们是来比赛的我不知道当时比赛叫新奥杯正好赶上了比赛正好是新奥杯那个比赛预选正好那时候
韩国人抢了全住那个酒店我一推门哇
全是假期的他们一看 咦 古丽 周瑞阳那个时候都认识我了因为阿尔法哥说 哎 凡辉他们要干嘛因为主要那时候一看到我必然联想到阿尔法哥因为那时候阿尔法哥太火了就相当于那年当时的 OpenAI 今年的 DeepSeek 得道理尊重关注这个 尤其是圈里的更关注这个我心想 坏了我这怪偷偷摸摸来的这大家偷偷摸摸就这么寸赶上的然后古丽和周瑞阳特别
自然的跟我讲没事每次比赛来他们都住着我心想怎么说我哪知道就这么寸然后我们就在那个房间里面憋了好几天就是把那些变化
第一盘第二盘第三盘都很简单没啥问题里边相关的尤其第二盘 AlphaGo 无路兼冲反正看完 AlphaGo 的胜率等等都觉得了不起第三盘就不说了因为历史下的不好第四盘挖确实挖完之后 AlphaGo 胜就邪乎了大家看到这只有第五盘我们当时也无法判断
是不是 AlphaGo 有问题我心里面觉得是有但我也没说反正有一些变化图你们凑合将就着能说通 AlphaGo 如果这么想的也能说通但是我大概觉得没那么简单因为那个棋我太熟了我跟他下过那么多他往往出错就在这种地方而且如果没错他干嘛不早把那档下完或者那个变化有很多种下完比这个好的
当然了你说因为这个变化有一个我当时我后来做就是那个阿富汗解说的时候有个变化图他从一路爬一堆爬一堆一路有一个变化能成立还展示了那个变化但那个变化有点勉强真的有点勉强我觉得不靠谱有点勉强但是在某种特定环境下可能真的还成立但我觉得如果阿富汗需要想那么远
大概是要出 bug 的节奏因为当时第四盘出 bug 的时候他那一步挖想了 90 多手去就是 90 多手之后变化那就回来的就想不到太远了逻辑链太长了逻辑链一长就不可能靠谱了所以我总觉得那个不太靠谱但没关系我们反正
至少我们达成一致因为我们都是棋手我们棋手不是叫那个针就是非要证明哪个对哪个错哪个好哪个坏我们是想通过这几盘棋让我们对围棋的理解发生一些变化这是我们最想了解的随着棋盘棋我们对围棋的理解至少像我这个水平跟他们俩摆了好几天棋还带着一个 alpha goal 当时那种感觉你知道吗就他们俩经常会说一句话叫做
这个地方怎么下呀我说别急我看看我心想了有你们问我的时候后来跟那个科杰我们还做过一次类似事经常就是科杰说哎 樊老师这个地方啊我说我看看就是嗯那种很自豪算跟我没什么关系吧好吧就那个是人间的这个人生的高光瞬间但这几天棋摆的还挺舒服的挺开心的
然后也做了一些整合然后回到英国就开始出相关的报告然后出了这五盘机的观战机后来也做了相关的发表但是那个不是最关键的
关键的是在后面的事我可能在脑里没说过太好了现在几点了没气口了这坑挖的差不多了来来来你说说那个到了五月份的时候弄完这个事之后呢其实团队这边就是已经开始全面要去解决相关的问题了我不是说了吗当时的那个版本跟李时志是 V18 对
跟李适时比完比赛之前 V19 出来了也内部做了一个简单的测试据说 V19 跟 V18 下能够比他大概胜率能高 40%这比按说厉害多了对厉害多了然后呢又出就是等我五月份我忙完我这一堆事之后回到办公室开始跟他一块做测试的时候已经有 V20 了他说这水平更高了胜率更强了然后呢我就开始跟他下
然后呢我当时测试逻辑不一样了因为之前的测试没有那么频繁我经常是过去一个礼拜对吧每天下然后就撤了然后当时呢团队是这么说的说这个 bug 或这个问题一定要解决而且定了一个特别具体的时间线如果在这个时间限制内不能解决这个项目可能就会停这个事截止了那就不干了就不干了我是回想这个事啊其实我觉得这个魄力是很大的嗯
因为这个事情特别理性如果在那个时间点突破不了的话你继续硬突破可能没什么意义当然对我来说我是感性的因为我是一个棋手对我来说阿尔法沟这事太重要了对维基行业太有价值和意义了它没有没继续了就是特别难受特别不可接受你知道吗就是感性层面但是我后来理解从科学角度来说你就得理性感性可能不能帮你解决问题
所以说当时五月份的时候他当时团队觉得信心很足因为毕竟 AlphaGo 从开始有到能挑战李适时也就两三年的时间进化速度太快了你现在只是要解决一个简单的 bug 不至于解决不了然后 V20 就出来了就说这个盘盘比之前更强因为团队内部他们只会看数据不会看别的然后那时候我就搬到伦敦公司给我在伦敦直接租了个房子你就别走了
咱就测吧我就在里边天天干这事不干别的而且当时确实我跟谷歌这边的工作接触太全面了
我既是下棋测试的我是个裁判我还是个公关我还是个对接人我还是个解说员我啥都干所以团队那我是第一次我拿到了谷歌的那些公牌之前我都属于 visitor 后面我是员工了这个概念去上班的就是找他给我租了房子然后我就开始测试
之前测试量没那么大然后之后测试的权限给我放开了就是我想怎么测就怎么测按照我我觉得方式来就行然后测出声就是在到 V20 的版本按照我想测试方式我可以每盘赢哇
就是我知道它的 bug 在哪让我测的足够多的时候当然了我已经是有条件的如果是那种特别慢的跟我下我做不到每盘因为我不可能用我有限的时间每天去测慢起我要慢起每天几盘两三盘我脑就僵死了我测十天就测二三十盘我测一百天就二三百盘能测出个啥所以我必须能够保证一天能测二三十盘逻辑跟他讲所以我觉得测的是快起就是非常快就是我也快他也快我一天能测三十盘
这样的话我时间用测 300 磅在测快气的过程中我发现很多 bubble 就是战斗层面的还是逻辑层面的东西全是逻辑层面的东西只要出现战斗那么我就引最复杂的战斗跟他下他就会算错他会算错而且有些时候呢我会给他摆出一些变化跟他下他就错就是明明正确下巴是没问题的他会往死里下就是一路那个风险会变得越来越多啊
这个是团队没有想到的然后 V20 出完之后出了个 V20 就多了个版本问题更严重他发现这条死路就是他的水平没用了已经就是你再往上走他那个 bug 依然存在解决不了那时候我们还测了好多比如说还测跟我侠杖子棋反正我就什么都测让我两个但是我只要逮着他的 bug 他也是个输我还测什么还测模仿棋
什么都测那时候那时候我是这就是为什么我说测试 AI 下棋这一块是个事我的经验绝对是最丰富的就是翻来覆去各种测因为我是内部成员嘛那是随便测我想怎么测他们很多人都不懂我该怎么测我就测我所有知道棋甚至于我会摆一个变化甚至于有些情况是同样的一个变化我连下十盘他十种同样的死法每盘都一样死法不变化
因为 AI 在某种意义上讲当他认为对的时候你又没给他改版本他又会一直死下去只要你逮住一回打把逮当然了我测的是快起如果是慢起有可能不这样我测过当时慢起的时候因为他的 policy 值就是顾问网络会变那个不准的他会调就有一定概率他会栽在那有一定概率他不会下那个但是只要栽上去就死
所以你是能在下棋当中构造出这种 bug 的场景来对因为而且我能看他怎么想的就是他会跳就是各种选择我知道他怎么想的我知道他怎么想的我就对他那你如果不看那个呢能抓他 bug 吗那我得多花时间抓他 bug 哦
就是说完了我的目的很简单我要在最短的时间找到他的 bug 然后去解决问题因为这是我的工作而不是说是我怎么公平的去抓 bug 这是本来不存在这个词所以我就看怎么想的团队也是希望我能做这事所以当我抓这个 bug 之后确实那个 alphaGo 那个问题就变得比较严重了就是说大家会发现以现在这个机器学习的逻辑无解
当时团队有好几种不同的方向就比如说有一个核心想法是通过局部解决问题因为我知道 AlphaGo 战斗不行那么我能不能对 AlphaGo 的实际网络专门训练一套局部作战的实际网络然后再结合其他实际网络
这就有点像套盒的概念了套完了就是有点像它里面有多个但是后来就是在挑战 AlphaStar 之后他也开始用到这个叫 Multi-Agent 就是多 Agent 中文怎么翻译智能体现在大家都叫跟没翻译一样对我觉得 Agent 应该翻译得有点怪怪的多 Agent 就是他们的串联起来后来也做这事了但是当时这个想法就觉得有点难因为只要你一介入好像也不是个好想法
这就是积极学习的逻辑就变了对你就开始就无非是你原来是打补丁对你现在打了个巨大的补丁还是个补丁对所以就停滞了所以那段时间我记得特别清楚就是在夏天的时候我们还去一趟欧洲一大会还去一趟美国一大会对 AlphaGo 做了一些宣传等等然后回来就继续测但是效果甚微当时我记得时间是定着是 12 月份 12 月 31 号之前
如果这个 bug 不解决就停了这事就不做了就不做了那个事就当时是几个月时间还有我记得反正当时暑假回来的时候还没解决呢七八半的时候没解决呢那就没几个月没几个月了就是那个时候大家感觉挺绝望的真觉得挺绝望的每天大家就开会讨论当然了他们讨论我也听不太懂我就负责下棋然后我这就天天刷新我自己的记录我记得最夸张的一天我下了几十手他认输了
我下几十手他就认输了他不是说是就是就是下着下着下着不行了就死光了就死的特别惨是吗几十手就死光了然后就下的没法看然后从就是我当然了我那个一定是有我自己设计的层面在里面的是我设计好的就我跟他比如我下这步棋之后二十步之后他必出八个或者十步之后他必死嗯
但是从团队说这也不行就算是你设计你能把它设计死就说明它还是有问题对 AI 的逻辑是你人再怎么干预它它都不会出错那才是没问题的对你只要人能干预出来你在人的生活运程有这个事出现那太可怕了对所以我挺开心的我替他测特别来劲但是团队应该是每天听说我各种各样的今天我又三手获胜了他们就很痛苦你知道吗解决不了
我记得有一天我觉得有可能是包括后面不是我们发表了那个论文吗第二篇 AlphaGo 论文 AlphaGo Zero 然后里边我不是联合作者吗然后当时这篇论文发表之后很多人攻击我说你凡会下围棋的你能对他们团队做啥贡献对吧反正我想所有的 AlphaGo 的事一般发表的时候我都是第一时间在微博上发表的那时候对
只有那个事发表了第三天我才说了句话我才说那个事我就怕别人骂我就怕别人我估计贴上去因为毕竟我是联合作者没扯论文做联合作者就是围棋行业职业棋手我绝对是唯一的我就不用问了我绝对是唯一的而且可能之后很多年我都是唯一的对吧但是别人很多酸的话肯定会说你凭啥对吧凭啥是你我也能理解
然后后来我也问团队团队一直说加上我他们就说你对整个事情 AlphaGo Zero 这个事情有贡献对我后来我怀疑我的贡献可能就是那一天我跟当时我们的项目副总监 Adrian Bowden 我跟他聊了我一个想法这个想法可能改变了很多事情然后呢我就说什么想法关键了是吧要不然咱今天先到这咱还有时间还有时间是吧哎呦说太快了等一等这坑挖到这了对吧我说我有个想法就是最近我跟 AlphaGo 下棋的时候啊
我总感觉哪怪怪的他就好像是两个不同的人一个人告诉他该往左边走另外一个人告诉他你该往右边走然后这个人呢就自己跟自己打架吓得很纠结就是这个严重营养他的判断他无法判断该往哪走我说我这感觉特别别扭这个事我明白你的意思就是他好像还是在抄人的那些招
倒不是他找的不是超人的招了是你就想啊他其实有三个神经网络的是 policy
search 加 value 这三个神经网络其实他们的决策权在谁呢其实在你调的过程中你会调权重对对吧 policy 是负责第一杆的 search 是负责计算的 value 是负责计算就决策的成功局面的但是你哪一个参数要更高呢你的 search 要计算多远呢
Value 要计算多长时间 Policy 是如何判断的这三个权重说不清但是当你有三个神经网络的时候他们三个如果互相不确认可能就会互相打架就相当于一个神经分裂脑子里边有三个不同的声音在跟自己聊天然后就会拉扯其实后面能证明一个事其实最大的核心问题在哪在蒙提卡洛书当他的权重一变大
就开始互相拉扯了 policy 其实还好然后挖了又是靠什么呢靠实际网络
当时认为神经网络的层级太深没有意义当时最初做测试的时候用过一次深的发现变化不大就是把神经网络层级当时我记得特别浅就十几层后来大到四十多层最初就十几层他们当时测过二十多层好像用处不是很大就把这个路子给放弃了然后他们会发现如果是这个逻辑的话我们把 search 就是计算路径这个事变短甚至于不要
我就用 Value 会怎么样就纯靠那个什么就是 PolicyValueNet 就是顾问我那个叫做价值网络会怎么样就把价值网络打成绩打厚四桌层但是那个新网络就特别吃显卡特别吃然后特别烧资源就说完了他要把所有那种小的旗形就小的一块一块看很多很多就看得就层级特别深
去干这个事因为他们的逻辑其实也对因为所有的问题都出在战斗战斗经常都是一片一片一片的他不是看一个棋盘他是看一个局部拼一个局部拼一个局部拼一个局部当你层级不够的时候他拼不出来或者拼的不完整就出发也对所以后面就是整个团队调了一个策略就开始调那个层级就调那个实际网络层调完之后很多问题解决了当然了当时我不是很知道啊
而且解决完之后引出另外一个特别吓人的事当时公司一直想做个事情叫 AlphaGo from scratch 就是没有人和人支持的 AlphaGo 不看起谱所以当时用 search 去做这事也不现实因为它是靠人的逻辑它才能 search 所以算后面的后面变化所以有了这个层级四轮打开之后开始跑那个 from scratch 特别快
我记得特别清楚当时我们这个就四楼层打完之后我们觉得这个事应该效果出来了大概一个月的时间把 Francois 这个事就出这个 zero 了 zero 了也跑出来了然后跑出来之后当时团队都很震惊就特别震惊就说这个我们吃完之后他的水平很快就超过 AlphaGo 了哦
现实因为有很多我这么猜想你有很多漏洞从起谱学的话人根本就没下过那些东西可能他学也学不到至少当时通过把层级就是实际网络层级加大这个事验证了训练 AlphaGo Zero 是可行的我记得一个月的时间他们出了然后说让我试试跟着下边去然后就跟我讲这个是没有学过任何人类知识我下一块就震惊了
我说我这完全没有给过任何起步一个月我一点机会都没有我说这啥东西这是他吓得很怪他吓得特别怪就跟个小孩不会下棋一样但我就赢不了他只要一杀我就死之前那个阿尔法沟你可以说是他大局观好这个阿尔法沟他不需要大局观
就是你特别能杀哦他疾风变了变了就是特别好战嗯然后一杀你就死计算力特别强我就这个是个什么东西这个然后当时他跟我们讲是弗朗斯卡说这个东西的价值远远比我们现在这个更厉害的版本的 AlphaGo 更重要那是他连数据都不需要对然后就开始自己自己演练嘛当然了这个在这个期间还有另外一个事儿
那时候干的事真多那时候我们在乌镇不是在乌镇在那个哪在首尔的时候不是有一个设计师有一个团队把整个过程全拍下来了最早的目的就是为了能够做内部的资料片他找了美国一个挺不错的导演做纪录片导演的然后拍之后整个比赛各方面效果不错
然后针对这个就出了一个做了一个电影就 AlphaGo 那个大电影就是那个纪录片后来不是还获奖吗等等他们被上传还看的吗就那个然后那段时间把样片还剪出来了剪了好几遍大家讨论等等就根据那个电影的事那时候还挺忙活干了好多事真是忙活但是问如何吧我记得是在 90 月份的时候这个问题基本上得到了验证大家觉得问题不大了可以跟科杰下了
也没有到那还没到还没到等不及了柯杰等不及了因为后面还有一个事才震惊的什么事你知道对吧哪个事在柯杰和林志毕赛之间有个事挺震惊的啊
是那个在网上下棋对 master 那个事那个事挺火的央视都上了就讲谁是 master 那个事对吧那个伪装成一个网络的一个下棋的记得这事当时做测试那个事也是算测试的一之一吧我记得当时话说回来当时不是去那个回北京做棋就是那个讲棋吗跟鼓励等等鼓励不当时野狐吗我们还聊天吃饭等等说了很多
这跟后面测试也有关系这一会下期然后我记得是到 10 月份的时候应该是问题不大了然后那时候就开始有些想法了就说反正我测试已经没问题了我们也通过一些其他方法有些我还是卖个关子先不能乱说的反正大概问题应该不大了别说跟我下没关系没问题了那个高厉害的版本我就算再怎么摆
再怎么埋伏他也没用他能让你几个子让我俩肯定我没戏就是我这么说的是越来越脸皮比较厚让我撒我大概也悬因为那个时候的版本已经到了 V23 了 V20 之后却停改方向但是调了怎么调都不行
V23V23 的时候就是著名的那个 master 版本那个版本我其实特别清楚当时大家都觉得这个现在不错了这个水平然后我们已经顺利的按照当年的规划 12 月 31 号要做突破了不仅突破了还突破了一个新的就是 AlphaGo Zero 因为那个是要上 Nature 论文的
这个团队都知道而且大家对这个特别期待因为看过 AlphaGo Zero 就是方七夸子论文那个人都知道那篇论文 AlphaGo 的论文干净多了是啊他跟人的知识都没关系了对他很干净而且论文写的很漂亮嗯
里边的逻辑很清晰包括后面的所有的代码也没多少全部都用去做什么复现的挺容易的一路就复现了而且它不光是尾棋它所有的棋类都直接干了 AlphaGo Zero 之后就是 AlphaZero 它可以干三个棋然后再往后走你可能不能说有直接关联关联是有的 AlphaStar 就是打新星之马的再到后面的 AlphaFold
它一定有很强的关联性你说是代码肯定不是一套代码但是逻辑肯定有相似的地方是思想类似的靠 AlphaFold 拿诺贝尔化学奖都跟这是有关系的对吧所以当时团队对 AlphaGo Zero 还是很有信心的但是觉得用它直接下不太现实毕竟 Nature 论文他们要核验
就是你跟 Nature 去提交我发论文了他们会找一个专家团队来对这东西进行相关的确认它是真实可靠的他才会发表所以这个时间很长在没有发表之前就是在没有 Zero 没发表之前我们应该是不会用的但当然 Master 就很厉害了但是毕竟啊我们已经就是测试过那么多遍但万一他还有 bug 怎么办对吧万一呢
所以我记得特别搞笑就说当时说是要不然咱们在网上测一测其实按理说这么重要的一个事全世界都能看到 AlphaGo6 这种测试当时底层逻辑很简单偷偷摸摸的测就是你没打算让人知道没打算让人知道那后来别急了所以说当时测试的时候赶上什么了圣诞节所有人因为欧洲圣诞节是最大节都回家了大家都在家黄博士在哪呢在台湾呢
所以说怎么办远程测反正那时候连阿富汗也很容易了远程测比较搞笑远程测就跟当时是在议程上下说是我们先测个十加二盘我们下着玩下然后这就是当时为什么第一次比赛在韩国下因为当时的保密做的是很好的从联系到发布没有任何人知道一发布都知道但是在议程下
益城直接给了个九段账号下了没两盘可能就第一盘是跟业余企业下的益城为什么直接给个九段益城知道这事益城说了说了因为我们毕竟想测还是能够给我们推点人别上来跟那五级一下没意义总点是职业的然后益城一定是跟一些职业企业说了说这是个高手然后就来了
每天他应该是下个四五盘黄博士那边我看的很多照片就这吃了泡面那就开始下着棋在台湾你知道吗然后我记得是第三盘第四盘于智赢下了然后被抬走了很快就挂了然后陆续开始下然后十连胜然后这个时候职业棋手开始来了不是世界冠军开始来了我记得朴定桓上了我怀疑是就是一城那边一定跟韩国福奇说了阿尔法国就开始下棋了
等于他们知道是阿尔伯德山区本来就知道跟他们说跟他们说但是别让他们不要给别人说我们去做个测试韩国人知道了然后连对环线下了然后很快就挂了因为调尼湾下了三盘那回他在一成一直下下了好几盘下了三盘然后又下了几盘我记不清了然后是到应该是总共是当时已经下了十几盘了当时我在波尔多我在家里过圣诞节我当时预估的是 27 号
26 号 27 号肯定要飞伦敦但我关时间就走我去 22 23 吧我记不清了然后那个古丽给我打电话兄弟不能这么干咱们测试这个事不能只在一城下呀得来我们野湖下一下古丽也知道你们在测试都知道了全透了她说你这么一次测试之后都跑到一城下集去了我说这测试现在我现在在布尔多过圣诞节呢这事我也管不了啊对不对
然后他就说你这个不论如何得让在野狐上下棋盘了古丽是野狐的股东对当时国内最大的两个线上下棋的平台一个是野狐一个是义成就这俩没别的对吧那义成跟野狐当时竞争比较激烈然后我们当时比较了解义成因为他是老牌的野狐毕竟比较新而且我都没在野狐上下过棋我在义成下过棋但是我跟古丽比较熟嘛
然后就说这个事我说确实而且当时去北京那个三字不是去涅道吗还跟古丽还聊过而且古丽当时在中国也是当时还没拿你当时已经八冠王了拿过八次世界冠军了影响力那么大确实有点便宜然后古丽跟我聊完之后我就跟总部打电话我说咱们如果只在议程一个地方测确确实实可能会影响到野湖这边
咱们如果要测能不能再把一些棋我们在野湖测一测反正我理解大家应该都知道这个是阿尔弗购然后当时我记得挺清楚的说是 25 号圣诞节我们不下 26 号停一天 27 号重新下我飞过飞伦敦然后回伦敦办公室我们开会确认一下怎么做后来决定的是在义城下 20 盘在野湖下 20 盘
然后算是给兄弟一个交代这一层层下车当然了一去野湖这鼓励就激动了把所有中国棋手全叫来了包括柯杰柯杰也是下了大概两盘三盘然后最后把念瑶请来了
聂老也下了一盘我记得特别清楚聂老说这个 AlphaGo 的布局不太行但是后来聂老是输了但这盘棋至少从前半段还可以确实还可以战斗起来就不说了年龄比较大了算不清楚了然后包括还有一盘棋比较有意思的是周俊勋他也下了一盘韩国就是台湾的台湾棋手然后他下的什么呢他下的是模仿棋哦
他想试模仿棋但是一点机会都没有从头输到尾他只黑下模仿棋他低不起夏天元然后照着模仿他想看看能不能逮住这个 bug 反正后来输的也很惨这正面没问题虽然那回是 40 连胜我记得特别清楚到第 39 盘的时候应该第 40 盘跟聂老夏还是什么时候跟聂老夏我记不清了然后黄博士都是 master 的账号去下的然后就说
大家好我是黄博士我是阿贾黄黄博士我们在用 AlphaGo 做测试怎么样怎么样怎么样
去讲这个事我记得好像感谢聂老是吧还有那么一句对对对感谢聂老因为这回跟聂老下的对对对毕竟聂老的话他有一定的象征意义对对对因为毕竟他 40 盘起赢的全是职业棋手是世界冠军像当时彭定怀排第一赢了彭定怀三盘嗯柯杰是赢了一盘半两盘然后柯杰是有一盘基本上约着下的结果他住院了打点滴去了就直接拉走了我
我其实是真的好像激情长远就真的走很可惜没下着然后跟所有的世界冠军好像都下了这边最搞笑的有一盘棋特有意思我都不知道我讲没讲过这个事有一盘棋是跟孟太林下的也是中国很知名的职业棋手孟太林都是一个好哥们他现在开一趟我闺女在那学棋呢那我说但是这是真事我说了也没关系孟太林跟那个阿发鬼下了然后我们都很熟嘛他挺好的然后呢那天下的时候啊下到一半
因为是在网上下的黄博士滑标了点错了然后呢梦泰林正好在打吃黄博士滑标了赵鹏霖抓了一堆然后局下然后阿卓国还是赢了这都能赢别急吧然后后来很久聊梦泰林说不错
这阿尔法克奇高啊那个地方他没有救我这个大巨观厉害啊就这个大巨观太厉害了这个这个这个我真的是没有这样他就很轻松就获胜了我说当时要是救的话可能还比较复杂的他一直在笑是因为他滑镖了
不是因为他没有救他是想救的只不过没有救他也能赢那个版本的 master 非常非常厉害嗯
人已经没法赢了而且那你想当时在网上下全是快起可能还有些延迟就是黄博士两个电脑这边是 AlphaGo 这边是野狐或者一城这边下一步他点过去一步他还可能会延迟他又不能超时所以你想他在家里边又不是办公室下个速牌眼都花了有可能会点错花个标很正常但是对于他骑行也没有你们那么熟对但是这个事其实从公司角度是风险很高的一个事因为我们之前没想这么测试
就想偷偷摸摸的想到后面已经不受控制了因为
全在说至少当时中国全在聊这个事 Master 是谁因为在中国最早危机互联网下棋的时候有龙飞虎你听说过吗好像听说过最早有一个叫龙飞虎的那几十年前的人了这个龙飞虎当时最早一批上网下棋的打遍所有职业手无敌手当时说这人是谁但是后面说好像是个职业棋手好像是叫丁伟好像是个职业棋手他本来很厉害但是更原因吧等等但这个 Master 是谁
所以如果你想他那个环境如果真的是华格不要输了你说他不算他输吗这我觉得很容易看出来是 AI 我 AI 下棋是不是每步思考时间都差不多不是这样黄博士操作你咋看出来他不是 AI 落子他在操作他用鼠包操作你根本看不出来而且阿尔法格马萨的水平他毕竟是有人类知识的所以他下的真的很像人只不过就是一个特别厉害的人你吓不过他而已
我就说简单他如果真的滑标了输了你难道说他输了是因为滑标不算不能啊所以这还不是那个 zero 的版本不是还不是不是那个时候不敢用 zero 版本就说了嘛要过那个 nature 审核明白了所以说不能不能用这个版本只能用 master 版本下然后经过这反正这个事弄完之后四连胜我记着那个因为 Dipman 他是没有微博的
它是没有中国的宣传渠道的当时是用我的微博发的用我的微博发就是跟一个公式就是 Master 呢是我们这个 D-MindAlphaGo 的版本叫 Master 版本然后这个版本呢我们经过四盘测试特别感谢中国的职业协会帮助我们做了相关的测试我们最后测试还是比较圆满的感谢大家等等等等就是艳名正真就是我们了
但是用我的所以说我的流量高峰就那天那天我就光那一天就那个稿子的浏览量应该是 500 万还是多少几百万就是那个微博转发人特别多因为是官宣因为从我这口官宣出去当年就没有把握好流量你说是不是好吧那个时候挺热闹的那么这个事然后 AlphaGo Master 出来之后
我们就开始讨论要跟克杰比赛的事了其实最早想讨论的时候其实在那个克杰可能已经不想比了这时候会不会总是好事对他的流量是好事我当年承诺过他但是他应该不会以为自己能赢了我感觉赢不赢可能已经不重要了对吧重要的是敢不敢下对吧你如果都知道你会输你就不下了可能也没意义对吧你就是作为一个棋手
输赢是其次面对输赢才是最重要的你敢去面对它才更关键我觉得所以我从来都没觉得他不会下他肯定会下只不过可能他不觉得会赢但是我觉得万一能赢呢对不对往往这样的心态会更好当你知道你不可能赢的时候你有可能才能把心态放下来就是尽全力一搏
拼尽全力打中那一拳哪怕你知道赢不了往往是你觉得自己特别容易赢的时候你可能会有一些心慌怕输怕丢人怕丢面子这没啥丢人的你都知道肯定有不了啥丢人的就还好这块我觉得
我记得是 10 月份我们当时 master 出来之后我就当时就拉着我第一次会还拉着我们的那个负责人来的因为这个事挺复杂的因为要在中国搞比赛这个得通过中国学院中国维基协会然后谷歌还有 deepmind 这三方因为谷歌是在负责当地承接的那么中国学院就不说了咱这科学比赛他什么代表那 deepmind 是出技术的那这块这三方承接谁牵头干这个事
其实挺尴尬的谁都不知道该怎么去引这个口因为我认识中国区议院的人那谷歌这边不认识或者他们也不知道该怎么去聊迪曼这边理论上讲他没理由去签这些因为他是负责科研的落地是谷歌所以我记得特别清楚第一次那个会是我拉着我的项目经理叫 Adrian Bowden 我硬跟他说你跟我一块来去北京咱们找中国区议院开会去
然后当时我们俩到了北京拉着谷歌开会然后拉着那个我当时记得特清楚第一天去拉着那个就找小花老吃饭就在就是中国区对面不有个便利坊吗就直接吃便利坊吃的烤鸭我们就在那聊这第一次见面都不是在企业里边聊的就聊当年 AlphaGo 我们想去做相关的比赛跟科技也比比等等聊了很多想法你这 MAS 这么厉害了这科技赢不了啊
对吧就咱咱别吓了大家你吓咱倒能商量咱别光吓这个科杰有没有别的活动什么搞一搞反正赢是赢不了干点别的做点好玩的事当时我就跟他提了一个我说除了跟科杰比赛咱们可以把这做成一个活动而且当时确实是也不希望把这个比赛搞成一个
怎么说呢不想把别的搞成一个冲突性特别强的一个比赛你像在那个韩国首尔和李士实的比赛他就是个人机大战对吧就是人类和技术的混沌但是那个时候其实有一个画面我们大家都不喜欢哪个画面呢就是有一种那种终结者的概念终结者在那下棋对面李士实但终结者他那个技术人代表的是什么
是邪恶的一方是毁灭世界的一方没错所以从像迪曼谷歌这样的公司他们科技类的我们所干的事不能是个邪恶的事吧所以他其实不希望是对抗因为在他看来科技或者技术改变了人的生活能够帮助到人而不是毁灭人所以也不希望把这做的特别硬是一种碰撞的概念所以当时就提出一个概念叫什么我们可能会搞些人际的一些互动除了跟科学的比赛我们还会搞什么呢还会搞那个
我们当时被搞个叫联起什么叫联起呢就是一个人带着阿尔法购和另外一个人带着阿尔法购
双打双打但不是机器跟人打是机器加人跟机器加人这样就看人和机器就看哪个人更臭一些就肯定输了也不见得就说白了哪个人跟机器的配合更好谁就会赢它是用配合的逻辑而且这个概念其实挺好的因为在未来 AI 时代的时候人更多的就是跟机器配合因为机器一定能弥补我们人很多不足的缺陷所以说我们人怎么能够更好去理解机器
然后通过机器更好理解人比如说现在我们都知道其实机器的语言它是一种代码式的语言而人的语言是自然语言所以人在学习理解代码语言
但是代码这块的方式也慢慢在了解自然语言大模型等等就这两个了解互相认知会越来越接近的时候他们互相组合可能会越来越完美的时候其实现在这个逻辑已经变得越来越清晰了在那个时候其实有种尝试就是如果人的思维跟 AlphaGo 思维他们俩能够互通就是我知道他想什么 AlphaGo 他会按这个旗就往前走他能做更好的配合那他们下旗可能就会更好
想算的尝试还另外一个就有点秀的形式了找五个社会军他们五个研究着下然后 AlphaGo 就在那下棋就那边有个其他他们五个人边摆边下研究着可以讨论然后这边黄博士一个人坐着那个就有点搞笑了那个就出了很经典几张照片都跟你有关系特别经典那都是后话了那都是后话了
所以那时候当时也有研究搞这个比赛我记得挺清楚每天就光开会搞比赛那边好多事那时候 AlphaGo Zero 还在做相关的测试往前跑要在 Nature 论文发布这边在聊 AlphaGo 电影的事因为电影当时也是在年初要上映了电影我们自己那部看出评估觉得相当不错觉得真的很好看
第三个是乌镇的比赛这是一个巨大的活动这个活动该怎么去办该怎么组织然后这个活动在推进的过程中大家是越来越兴奋因为这个规模可以很大因为在中国当时在人工智能这个领域中国是可以说是新兴的就有那些大的公司像腾讯有资源干这个事而大部分公司他们都是硬为核心的大家对 AI 没什么概念也不知道该怎么搞所以把迪曼引到中国来去做这样一个活动其实意义非凡
对其实我说实话有启蒙的意义对我就真的有价值我当时觉得是特别有意义因为你就说简单一点的就像 DemisDev 这种知名的人员 AI 的知名的人再去跟大家分享一些 AI 的一些想法他们在开发的过程遇到的一些问题等等等等
这个对我们中国的科学家可能都有一定的帮助本来就是一个互相学习的好机会因为确实这样机会太难得了以前我们都得扒山涉水去参加他们这种这样的论坛我才有机会能听到今天在中国自己地方搞多好的一个事我当真觉得这是一个
就是打心眼里觉得这不光是维系行业的事了是能够跳出去对我一直觉得像 Diamond 这种人他是给了整个 AI 的工业界很大的信心虽然现在没有 DeepSeek 或者是 OpenAI 这些公司这么火爆但是很大程度上就是 DeepMind 这次突破让大家对 AI 能解决问题那个边界的认识不一样了
以前大家对围棋这种事情说实话是尽管有人在研究但不太敢相信说最终能克服它更不要说自然语言处理自然语言处理很多的科学家实际上是在用一些非常不究竟的方法拼凑一些规则大概能跑但是都跑得不好
只有这个 Define 的这公司横空出世以后又在这么一个看似没有多大商业直接回报的问题上一下子取得这么大突破所以整个这个业界的信心
就完全不一样而且机器学习的路径被验证了这是很靠谱的其实我理解当时我们用 40 多层声音网络抓发过 Zero 的时候没错当时我理解后来包括 OpenAI 它就用大模型的逻辑就是大力出奇迹而且这个逻辑并不是人的直觉能够理解的逻辑是的为什么 40 层可以 10 层不行我们现在理解不了黑盒依然没有打开但有一点我理解的是当时其实以 D-MAN 的当时的技术水平
和当时他的资源其实可以跑 open air 这条路的嗯
他们好像没有选择这个方向这个确实也是 OpenAI 很厉害的地方我是这么理解的咱们如果是以成败论英雄的话我觉得 OpenAI 确实他们赌的比较狠这是做的比较准出结果了从 D-MAN 的角度讲他们还是一个以科学扎实为核心的所以他们 D-MAN 的逻辑是他们去干了 AI for science 那些事情对 他是要每年他每年要在论文上发表的要发表 Nature 论文的是要发表多少篇是 Science 论文的
他们是以科学基础他们希望扎扎实实一步一步搞清楚自己在干嘛他们最怕的是我干了一件事情
我都不知道在干嘛我干了好像很牛但是我底层逻辑是什么我能带来什么这个也是让咱们现在最纠结最痛苦的地方到底要不要人先理解才把这事干出来是吧也有不同的意见是吧不同的技术路线说不清楚说如果人是以成败论英雄还是以其他的论英雄当然了咱们现在普遍会认为是以成败论英雄这个事情的热度有多高那么谁就是对的但是大家回思考一下逻辑这个逻辑真的通吗
未必我只想说当时 D-Mind 有机会这么干我内部也听见过类似这样的想法但是后来没有这么做我相信包括 OpenAI 这家公司在内 D-Mind 的这次成功肯定给他们也注入了很强的信心要不然他不可能在这条看似就是根本走不到头的路上去坚持那么多年
包括当年的迪曼跟 OpenAI 他们其实除了 AlphaGo 这一块他们可能没有做之外他们在星际争霸是有直接竞争的当时迪曼是做星际争霸 2 它叫 AlphaStar 然后 OpenAI 是做星际争霸 1 他们也都有干过这事只不过迪曼这边是最先把 AlphaStar 做出来了而且还挑战了世界冠军他就用 Multi-Agent 的方式就做到了所以后面 OpenAI 就把这条路给堵死了就不干了
就没有意义了你二我打的是一你打的是二然后你已经先成功了我一就算成功也没有意义了是所以后面就不干了所以 OpenAI 后面也是赌那一把赌那个大模型这个是我理解在科学界可能这个是一个磨合的概念谁科学本来就是很多人都知道这个路径但是一是可能没有资源二是有些逻辑他不愿意干觉得这个事情有一定的风险就这个事情会不会
我们干的太猛了没研究就打开潘多拉磨合了但是 OpenAI 干了成了全世界都知道了我还是这句话我也不知道对错我毕竟不是搞科研的但是我只想说今天我们人类所关注的就是热点
谁热点高谁就对恨不得这个逻辑当然了这个世界是这样吗不知道可能现在是这样未来是这样吗我也不知道可能需要大家多想一想因为毕竟 AI 太快了已经不可挡了今天的 AI 速度已经没有人挡住它了但它是太快了可能每个人都要去思考自己未来的定位了
这个盒子是已经打开了谁也关不住了没错我怀疑我们的思考赶不上他的速度应该是赶不上而且但是至少我们在 AI 时代应该调整自己的思路特别是跟他如何配合起来工作我有一点我觉得特别好就是有一句话我特别认可反正也是听别人说的比如说很多人会对 AI 持不同的意见看法等等我总会我觉得那话是这么说的说是未来淘汰你的不是 AI
淘汰你的是使用 AI 的人这点我相当认可我觉得 AI 它不会淘汰人因为它没有淘汰人的逻辑也没有意义所有的经济价值产生是来自于人所谓的 AI 产生经济对 AI 的价值这是一个噱头我觉得不存在只有人会在乎这个玩意儿所以真真正正让你跟这个时代脱轨的不是 AI 是用 AI 用工具的人让你觉得你不如他们了
仅此而已所以拥抱 AI 可能是必然的方向现在讨论那些我刚才说的逻辑可能意义已经不大了因为那个盒子已经打开了谁也关不住了这个时候你只能去拥抱变化了没错只能拥抱未来了毕竟 AI 时代势不可挡这不知不觉又聊了一个半钟头了咱还没聊到科杰下棋扣的还得往下继续那可不
聊哪了不可聊的刚才咱不是聊到那个高手搞比赛的事你回来对到那个中国区院找小话老开会
那后面还多了呢后面还有很多还多了呢哎呦乌镇的比赛还有好多好玩的事没错后面咱们下回有时间还得再请樊老师来我今天可真说了好多在任何地方都没讲没错都是些内幕消息下回还得继续说对后面还有特别精彩的内容再说几回能说到你们现在在做的机器人这些事哈哈哈哈
这坑可以慢慢挖着对吧咱 2028 年前慢慢挖坑慢慢填好玩今天这个内容也是特别精彩非常感谢大家的收听欢迎关注科技修道院今天咱们就聊到这好咧好拜拜下次见拜拜