欢迎收听《实际英国》一档聚焦英国话题的访谈节目让我们在伦敦和你聊一聊科技 创业和生活大家好 我是 Linda 我是 Kent
这期节目是我们 AI 特辑的第三期特别高兴的邀请了我的同事田叶来节目做客田叶之前是在亚马逊的 Alexa 团队做自然语言处理 NLP 的研究他现在也在 UCL 教授 NLP 的课程大家好,我叫田叶
特别高兴能请你来因为这个我们这个系列里的其他几位嘉宾都是男士这个终于我们在这个 AI 领域里面有一位女性参与我们的节目来讨论了所以特别期待今天的节目就我们这个节目的这个惯例第一个问题可能都问一下你的这个英国故事你当初怎么选择来了英国我知道你之前在国内是读的清华是吧
对怎么来英国就是我第一次来英国其实是在读本科的时候学校也不是学校安排的但是是通过学校然后来英国做了一个实习当然那个实习和现在做的没有关系然后就是来了英国然后觉得就是还比较喜欢这然后后来就是出来读书的时候就选了英国那你觉得现在还喜欢吗挺喜欢的
挺喜欢的挺喜欢的我觉得英国就是他这个我其实也没有住过就是说住过英国跟法国两个国家除了中国以外然后就是就是这两个国家比就是英国他更加嗯对不同的文化然后不同的就是人的自己的追求啊什么的就是更加更加包容就是说一个很明显的感觉就是我在英国绝对就是不觉得我是外国人但是在法国会觉得我是外国人
我曾经在德国有特别明显的我是外国人的感觉然后所以特别幸运我不在德国是吗我觉得可能是不知道欧洲大陆是不是有这样就是他更加这个他的文化的这个 identity 更强烈一些他可能就但是对我也有同样的感觉在法国的时候挺有意思我记得就是我第一次见其实当时我还在 UCL 读书然后你在 UCL 做了一个 talk 然后你当时在这个语言学就 linguistic 是吧就是给那里的学生来讲的
对我记得当时是我在亚马逊的时候我来了做了一个这个就是职业的这个一个 talk 对对对对对对对是就是我其实我就也特别好奇我当时去那个 talk 也是觉得特别好奇就是那个你之前是在这个 UZO 读的一个语言学那就是什么什么样的这个原因让你最后选择了去亚马逊然后去做到了这个 NLP 的这个领域里面
就是这个语言和 NLP 就是我觉得这个也是一个是一个发展趋势吧就是当然我当时学语言学的时候那时候 NLP 可能几乎还不怎么存在或者是也不是很有业界的这个 application 就是业界的应用那当时就是喜欢就是喜欢做学觉得这个很有意思博士期间主要是做了很多实验
然后后来博士后的时候做了一些关于对话系统的东西就是对话系统研究呃就后来去亚马逊的 Alexa 他也是也是对话系统所以说这个连接其实就是一步步走过来还是就是当时也没有觉得是一个很大的跳跃 Amazon Alexa 就跟国内其实有很多类似的产品就是什么百度小度都是这种智能音箱
对智能音箱就是一个对他说话然后他可以比如说回答你问题啊然后帮你做一些事情啊就是对这种产品语言学研究什么呀就是说这个从一个外行的角度来看的话他主要就是或者你那会主要的研究的这个方向是什么呢我博士的时候主要研究就是人是怎么处理语言的就是说人脑是怎么处理语言然后呢人脑怎么处理语言这个你要是说你想想这个语言是怎么发生的哈那就是
某一个人说话他是什么他是你的声带震动你的声带是你的你的大脑指挥你的声带或者你的你的嘴啊什么的做出某样的某一种形状然后发生一声波声波传到其他人耳朵里面声波但是我们不会就是体会到直接体会到声波我们体会到的是意思对吧然后你怎么样就是说从声波
到意思这这个过程就是人脑是怎么处理语言的我当时研究的是就是说西湖是最后一部分就说声波如果说你要想想成一个一个序列的话那可能会呃你声波首先是你区别这是人生而不是人生人生中间是不是语言语言这东西就是说你是会很快的就是呃你会下意识的意识到是语言你是你你自己
懂得语言对不对就是比如说比如说假设这就是为什么如果说比如说你工作的时候如果你同时听个收音你听一个你自己的懂得语言你的母语或者是你懂得语言那你就会你会非常被就是呃被被打搅到你因为你你在同时出力言但是如果你听一个你没懂的就是听不懂的语言那就是几个几个然后你首先是你的大脑会区别到好这是一个你懂得语言懂得语言之后你会自然而然的就是听到词对不对词
你在大脑中会形成就是怎么样就是从词或者从声波到词到句子然后到意思就是这么一过程然后最后我研究的主要是最后意思那部分就是说人大脑是怎么处理意思的然后这个意思是比方说要花多长时间处理呃不同类型的句子嗯是怎么样处理的不同我
我当时主要是做这个当然就是语言学你可以从不同角度上看是吧语言你看成一个你的身体做的事情就比如说视觉加工和语言加工是一个你身体做的一个加工这是一个视角还有一个视角你可以说语言它是一个社会交互的一个形成的一样一个共识那种可能就是比如说更多的社会语言学会研究比如说
比如为什么有不同的语音啊不同的不同的方言啊然后不同方言有什么不同啊这种就是从一个社会角度来看就是有有很多角度来可以来看这个东西然后还有当然目前就是说跟自然语言处理的话就是说怎么样把这个语言理解把它和机器联系起来怎么样和机器交互这也是另外一个角度那你觉得我们就是咱们先不说机器啊你觉得我们人理解语言是真的理解吗
还是说其实也就是一个大的字典然后我只是把它做一些麦平做一些这个比对对这是一个很好的问题就是我觉得就是语言到底是什么或者是交流到底什么比如 19 世纪 20 世纪主要的这个语言学的发展就是把语言看成是一个逻辑系统我们先说这个现实大家这么想的至于这个是不是真的我们我们在讨论就是说如果把语言看成是一个逻辑系统他做的是什么他做的是吗他做的是一个对应一个印照
就是说这些是符号符号对应意思什么是意思意思对应的是不同的就是世界的这个情况就比如说我说前面有一只狗那么什么意思是因为它通过这句话我可以想象就是世界是一个样子的但是如果说我说前面是一只猫那我想象出的世界是另一个样子
这就是如果说你把这个语言看成一种逻辑系统一个对应那是这么想当然就是这个就是很多就是二十世纪的很多这个语义学的这些一些基本就是想怎么样就是把语言自然语言啊翻译成逻辑语言然后翻译成逻辑语言你就可以你可以做归导啊就是 reasoning 啊这些东西但是实际上你想一想就是说交流和语言是一个分不开的东西交流
交流其实我觉得我个人觉得如果说你把看语言就是逻辑这样想法的语言看成是一个就是单向的传递就比如说我有这些信息然后我把这些信息用这个语言把它把它转换然后我就扔给你然后你就收到然后这样一种想法但是我觉得实际语言不是这样子的语言更像是一种两个人跳舞一样就是说就是我给你一部分然后但是你自己要
你要有给另外一部分添加起来才才能真正的就是就是能够就交流而且很多时候就是语言是不需要的哈就是比方说有个商场然后商场前面有一个人就是站在门口
然后你就走往那个人那个人方向走你走到他的门前的时候就是走到他旁边的时候假设你的理解是他是比方说他是一个帮人开门的就是那么你不需要跟他说你请你帮我开门他就会帮你开门为什么是因为就是在我们这样一个社交这个背景下我们互相理解他的我的这个意图我为什么要走到门上我也理解他的意图是吧就是很多东西的这些理解都是不需要语言传达的
所以说实际就是我觉得如果我们平时要是稍微注意一下就会发现很多我们之间的意思的传达是不需要语言的就是语言它是一个它是一个 pointer 就是它当然是有含义但是真正的这个交流的语言和语言本身符号所代表的这个意思是是不一样的
所以从某种程度上说你此时无声胜有声你可能不说的时候反而可能能传递很多信息对再举个例子就是假设在要是两个人两个朋友然后在一起就是出去约会然后如果这个女生如果男生问女生说你喜不喜欢我然后这个女生不说话是吧这个不说话本身就是含义对吧
那我想追问一个问题就是你刚才说到我们在交流的过程中有时候不需要语言也可以传递信息那么就这个时候我们到底我们的大脑里面是不是在用语言思考还是说这个信息处理本身是不需要语言这个问题很好的问题我就说说我自己的想法然后也好奇你们的想法这个问题是有两方面第一方面是说
人是不是只有语言才能只有通过语言才能思考这是一个问题第二个问题是说是不是大部分我们大部分时候我们思考的时候是用语言的我觉得第一个问题就是说是不是必须要语言才能思考我觉得这个是不是的就是说我们是完全可以思考然后不用语言的举两个例子一个就是说在小孩还没有学语言的时候他当然是有想法的就是说你一个没有语言的就是一个人他是有想法的
然后呢我们就是作为就是我们会会有圆的我们有没有想法是没有圆的呢就是你可以试一个这个就是比如说你画一个几何图形一个比较复杂几何图形然后你做一个这种智力题然后说啊这个几何图形旋转顺时针旋转 180 度是什么样然后如果让你这个去想你是不会在一直在说说说说说你不会说啊这条线这个转着你你的你的这个思考过程是
你就是会去想他是不是你会去想他这个转这个转不是通过语言的就是还有一个例子也是也是跟视觉有关的东西很多东西如果是视觉本身有些信息是不用通过也不能通过语言来来传达比如说还有一个就是说假设几何要证明两个图形是有同样的面积当然这个是证明同样面积你可以就说啊这个长宽等于那个长宽是不是
还有一种怎么样证明两个几何图形有同样面积假设我可以把第一个图形剪成小块然后把它拼成第二个图形就完全盖住第二个图形是不是这个过程是没有语言的就是我就剪剪然后拼一拼然后就给你看哎你明白然后所以说是我们是就是不是一定要语言才能有思考
然后但是我确实是觉得大部分的思考是通过语言来但是有一些思考就是就是有时候你会感觉到有那个就是呃你的潜意识会给你一些东西哈有时候那种东西就是说你你是说你有一种感觉然后自我感觉浮现出来
就说明你可能有一些思考这个思考不是语言形式但是让你的这个大前脑你的 frontal lobe 如果能够就是真正和你的其他的脑的其他部分结合起来你必须要语言把它就是 externalize 你把它得就是诠释出来然后你才能就是给它做点什么所以我觉得是这样一个关系我看到就是说其实也这可能也分人有些人可能更多思考的时候是通过语言的方式来表达但有些人可能是更多是从图像的方式来表达
比如你要想一个青的苹果我可能想的更多的是说想到的是说一青的苹果挺酸的然后但是可能有些人第一反应他大脑里就是就是一个图在那就是
就是可能也跟不同的人他的一些想法方式不一样对对对而且我觉得还有就是很多时候可能我们要用语言去思考是因为可能语言给我们的思考变得更加的精确就是我们有时候比如说凭直觉啊什么的或者说凭视觉它的精确程度可能在某在某些问题上没有语言那么精确我们可以用词语用形容词去把它限定这样这样的
而且我想到就是我看到有类似的这样子的那个观点就是说不同的语言之间他们其实对于相同事物的描述是有差异的然后甚至说会不会他们就是可能语法中的差异会影响到某一类人他的思考的方式会跟另外一种人他
它就会不一样还有说什么中国人数学特别好是因为我们就是就我们在说分数小数点的时候我们可以说的很简单很清晰然后英语就会很复杂然后就所以他们就数学特别差
这个很有意思我觉得这也是一个很大的一个辩论大家讨论的问题就是说是不是说语言会不会引导思考对不同语言会不会向你想的不同有一些证据是让你觉得确实有这种影响不说别的就是说有一些语言就是因为这个语言让你必须要比方说定义什么然后你必须要去想这个东西就是其中有个例子就是比如说西班牙语的那个动词你必须要说这个格对不对格就是你比方说花瓶破了是吧花瓶破了这个词这个破
破了我们没有隔那个破了你可以想啊画面破了可以是自己掉下去的可以是风吹的可以是人打破的可以是有意打破的是无意打破的
但是就是比如说在西班牙语或者这个很多很多呃罗曼许语言他你要那个格就是说你是自己打破的还是别人打破的你必须要 specify 你必须要说出来所以你不能不说所以你在说这句话的时候你必须要去想哦这个花瓶是自己掉下去的还是别人打破的这个本身就让你看世界就不同那么那你如果看世界不同那么你你肯定是你观众东西不同你肯定会有可能会会想的不同是不是
对我就觉得像比如说像我的话我对于狗的种类就特别不敏感但是有些比如说懂狗的人或者说他是就是专业可能是兽医什么的然后他就可以能够区分很小的那种物种或者说鸟吧他就是鸟有这么多千千百百种鸟那你如果一个专家他就可以识别就是
很轻易的能看出鸟和鸟贼的区别而且都有一个 label 给它们而我们的话就是看到一个鸟就看到有翅膀会飞那是鸟但我们不知道那是什么鸟我们说不出来因为我们没有那个语言我们的认知里面就没有把东西分那么细是是是我觉得就是还有就比如说在中文里面说亲戚的这个词非常精确啊就是什么比方说姑和姨是吧你说的时候你马上要想这是妈妈那边还是爸爸那边但是要是英文你就不会去想这个事情
堂哥跟表妹这就是两个不同的对不同派系的东西语言太博大精深了这也是语言也是文化中很重要的一部分不同的语言也有不同的文化我们再聊回来聊到这个你刚才提到的这个 NLP 这个 NLP 也是一个很大的范畴学科了那就是如果从一个稍微科普一点的角度来讲的话就是 NLP 都会包括什么就是它主要解决的问题是什么呀
一个非常呃一个非常宽泛的来一个定义就是说那 NLP 主要是干什么是让机器来理解源那机器理解源那么从这个如果说理解这一点那么从左边你来看说哦那怎么理解那就是有各种各样的说法比如说你你是一个 symbolic AI 就是你是用呃符号来来来研究还是 deep learning 就是更多的深度学习的东西这是研究怎么理解怎么让机器来理解
往右边看就是说那理解完了干什么是吧理解了就是这个是应用方面应用方面你是说比如说你是把信息抽取就是比如说人不可能看这么多文献然后你怎么样把大量的数据然后把那个文献把它信息提取出来然后分类然后什么总结还是说比如说你造一个对话系统然后跟人交互所以说我觉得就是从大的就是可以看怎么理解和理解完了干什么就是应用这两块来看
因为之前你也在 Alexa 工作过吗就是这个 Alexa 我也用了好多年其实我觉得现在越来越笨这个他越来越不理解我然后国内像什么百度小度我也我也有一个然后当时我在国内的时候我觉得这个也也挺不智能的哈就是可能是你太复杂了 Linda 他
今天这个真正这个 state of art 这个最最前沿的这个技术啊或者说把它用到产品上就是真正机器能理解我们多少啊
理解我们多少好那这个就就就得分了对吧就是说呃我们说就是当时间说比如人脑是怎么怎么处理语言的话你是先声波变的脑子里面你会变成想出来词啊句子啊然后句子然后你会把它映射到你的思想然后然后在思想完了之后你还得自己有思想再说出来是不是
所以我觉得这个也是同样就是在 NLP 里面不同领域它的发展还是不是很一样就是说现在就是说先从声音那边那边其实 Lina 你可能知道的比我多就是说现在 ASR 和 TTS 就是声音转语言就是所谓的转语言就是转成文字声音转文字和文字转声音就是在最近 2017、18 年之后就是发展非常快嘛对吧
就是 Google 然后 Amazon 什么各种大公司还有可能国内也是这样子就是深度学习的一些新的一些模型比如说 WaveNet 然后这些就是导致就是这个精确度就提高很多所以说就是不光是大公司很多小公司其实就是这个 ASR 和 TTS
的效果都是不错的当然这个东西效果不错这个东西是呃是有局限性的就是说它是比如说是英语或者是中文某某一些个例的语言然后在大部分的这个场景呃是效果不错的
但是怎么说呢不错是什么呢是因为你如果你你正常的这么说呃你说的比较流利啊好这样是不错如果说你要是在比如说在菜市场然后大家就是很自由的这么说那就也是不行了是不是这就是这是取决于你之前这个数据采集的是什么样的呃是哪种类型的采集然后但是再往下要走就是说从呃声音转语言假设就是说这个发展还是不错的就是精确度还是很高的
到后面就是理解哈理解这个东西就是那就是要看理解什么了如果说是有的具体的这个小的这个一些应用比如说情感识别哈就情感识别这些东西就是说在一些小音乐上如果说有足够多的数据然后这些数据嗯他的这个这个 label 足够的精确他是可以在一些小小的这个 dome 上有有非常高的这个效果会很好
但是就是没有所谓的就是说全能的这个语言理解当然就是不可否认就是从 201819 到时候就是自从 transformer 就是
我不知道怎么翻译啊反正就是 transformer 这个 model 之后就是很多自然语言处理的这些效果啊就是突飞猛进但是突飞猛进还是有一定的这个极限的就是大部分还是觉得除了这些非常直接的就是这种信息传递的这种交流以外在很自然的语言交互的时候还是很困难的就所以说
我觉得怎么说呢我觉得最难的其实对话自然非常自然的对话其实非常难的因为这个里面就是说首先大部分的数据来自于书面数据就是所有的 transformermodel 都是书面数据然后训练出来的所以说本身这些语言的这些形态就和自然对话中的形态不一样
然后另外就是自然对话是从各方面从数据还有从研究的这个细节上都还是比较缺乏所以我觉得就是对话就是真正自然的对话也就是你看比如说这些产品的这个应用场景其实是还不是很好所以就是说真正做到一个更通用的理解就是多任务的一个理解还是挺难的是吧
我觉得我觉得是的我觉得就是有些这个是很多在在人工智能也是大家会讨论的事情就是说自然语言理解就真正的理解是不是比如说人工智能里边呃可能是最难的也不是说最难吧但是也是非常非常难的一个东西因为
自然语言理解这个东西它是一个非常不逻辑的东西就是我们不能够很好的精确的嗯就是就连人在不同的场景下你都会经常有误解是吧那么
如果人会有误解的话那你怎么样定义就是你怎么样把这个数据定义好呢然后另外还有一点就是就像我们之前最开始说的就是很多你说的意思不是在语言里面而是是一个你对因为我们是共享一个世界然后共享一个就是生活体验你有很多东西是假设出来的然后我是不会说出来的比如说你问我你说你想不想喝咖啡我说哎呀咖啡我喝了咖啡睡不着那
那么我说这句话是什么意思是说只要我这句话说的是晚上说的比如说你晚上问我意思是说我不想喝咖啡是不是然后你也不会想那你为什么会说你喝了咖啡睡不着你没有说我不想喝咖啡就是因为我们会假设你会假设我晚上是想睡觉的是吧这些东西都是假想就是都是但是
但是这个东西就是因为不在语言里面然后怎么样一个模型它不光是说能理解语言所传达的意思而理解这个世界的一些假设这个是非常难的对我觉得你说这特别有意思就是说其实因为我们人理解语言是因为我们有一个这个等于说是 prior 的 knowledge 是吧就我们在这个环境中已经待了很久所以我们必须都知道这个 common sense 或者这个 common knowledge 在
对对对对那从那个角度来讲的话就是说你刚才提到说等于我们需要 build 一个这么大的模型谁有这么大的一个模型这个模型是要能够把我们所有的这个 common 的这些 assumption 全部 build 进去然后然后然后我把这个我的要说的东西说出来之后先跑向那个模型说基于这个模型把那个 assumption 给解释出来然后再去真正做那个语义的理解
对对这个所以说这个就是很难嘛还有一点哈就还有一点你就想想就是说我们就是去你会去想象因为你比方说你跟 Alexa 或者是百度小杜你跟他说话你每天跟他说话你觉得我天天跟你说话你怎么还这么笨是不是因为如果说我天天跟你说话那你就早是理解我了对不对对
但是这个如果从就是工程角度上讲那你就是说哦这个机器他要对每一个人说话他要有一个记忆然后有一个就是我不是说每天就跟洗脑了一样然后什么都不知道了然后今天说完明天全忘可是这个工程做起来就很难假设你有比方说呃 5000 万用户你不可能说 5000 万个然后每个人做一个模型然后我记住你记住你自己是对吧但是我们在交互的时候我们会觉得这个很奇怪
但是实际上你去想想如果说你去一个其他国家然后你呃假设一个人他虽然说学了中文啊或者是一个会说英语的但是两个完来自于完全不同国家的人然后没有任何的这个背景的这个你完全陌生人你们俩能说什么也没有会说太多什么你很多东西就是你不会去问很多东西你们之间的对话其实很局限的就其实就是人和人之间的对话就在我们不熟的时候
其实也没有那么那么丰富然后也没有那么多成功其实你跟一个陌生人说话你也不会觉得他会记住你奶奶是谁我理解这肯定是一个巨大的工程但你要想提到说像现在比如说这个头条或者是像这种 e-commerce 公司其实它相对它的推荐还是 somehow build 了基于你的
讲切人切面嘛它基于你的一个推荐的产品是吧那基于你这么多之前的行为那理论上这个我这个 Alexa 也应该可以给我做成一个基于我的对话系统是吧就我每天都跟他说他拿了我那么多数据
是其实是应该的现在有些问题是可能就是一个就是说现在模型如果是很大的话然后每个人做一个就是自己推荐的模型会很困难然后另外还有一些东西就是是有些东西它存不存在不是说有没有这个科技的可能而是说它有没有这个商业的这个价值是吧假设现在它不觉得这个会给你带来更多的经济收入那么可能一些公司它不会去做一些事情不是因为它不可能是因为它不赚钱那你之前在这个
AmazonAlexa 当时你主要是做哪一块的研究啊
我做的是资源生成这部分主要是就是说呃就是你说一句话然后跟他说完之后机器理解理解完了之后你会去寻找一些信息就比如说你说中国第三大城市是什么然后呢他就去找找找找完了之后呢就把这个系统把信息传回来之后呢因为这个系统的信息他是他的表现是一个是一个逻辑的一个比方说是一个数数字是不是啊那你怎么样把这个东西转化成人自然语言然后把它说出来我是做这部分
那这部分就也是诠释就是说你你需要做一些模板吗什么我看不是很多公司也在做是他做一些模板然后你往里面套这些东西还是说你纯是实时生成所有的这个每一句话就这个就是可能会涉及到什么 NBA 这些东西我就说这个整个这个业界大部分我觉得是两两种都有吧还是分两种说
我先说一下为什么会分两种来看啊两种看是因为你在不在乎你说的东西是不是真的对吧假设你这个系就是系统你说的话你非常在乎你说的东西是准确的那么你这种时候更多的是其实做模板的是比较多是为什么呢是因为你会你会如果说你生存你你有时候会说一些你生成一些你没有想说的东西然后这是很危险的是不是
所以说如果说你比如说订票的好订票的然后你基本上这种公司不会去做深度学习的一个模型然后去生成因为你不知道会说什么假设我跟你说然后你说你给我订一个到北京机票然后我就说我订好了可是我其实根本都没定那就是很麻烦对吧所以说如果说信息准确度非常重要的话模板会比较多
如果信息准确度不重要就是闲聊这种比如说你看一个什么动漫然后非常喜欢然后不是给你去买这个娃娃然后这个娃娃她是跟你说话的但是其实这个东西她跟你说什么不重要你不会去问这个娃娃订票
那么你就跟他瞎聊这种瞎聊他就是两种一种之前是提取法提取他怎么提取呢就是说他会搜非常非常大的这个语料库然后比如说这语料库也是很随意的语料库比如说电影啊什么的然后他做的就是说你人说一句话之后你就去语料库中寻找寻找一个和你说的话非常接近的那句话然后就把下一句把它抽出来说给你就这样这个其实就是说他是不理解你在说什么呢
另外一种就是在这种情况如果是闲聊你是可以深入深沉的因为你深沉东西是真的假的或者是你说我喜欢粉红色那是不是你喜欢粉色也没有关系只要说的东西是流利的然后就行所以说对是不是模板就是看你的这个场景和应用场景和这个精确度有没有重要所以像你说的那种就是其实我也不一定真的要理解你我就可以跟你对话
对因为你的需求可能也不是要真让我理解你确实是啊其实你看看有时候就是大家的闲聊啊比如说呃你经常看就是比如说在在微信或者是有些群里面你就不需要说话你就随便发一个什么表情符号大家都好像觉得都过得去你就
你说句什么话然后你可以说你生成一个什么什么开心的笑脸呢或者是你说哈哈什么真好什么都可以就是人的这个交流在这种闲聊交流下其实是非常随意的就是你有很多这个 flexibility 所以说这种情况就是一个是你理解也是不是非常需要所以只要是你给了这种 illusion 就是觉得是你在跟我交流就行
就是从你的角度来讲对话系统就是要是它有更多的价值其实还是真正的是需要要有一个为了任务而做的是吧就是那种叫什么有特定任务的对话系统而不是这种闲聊的对话系统其实两种都是需要的对吧因为我就是作为人
是两种都需要的就是人不光是说你要是去做事业任务你同时是要有情感需要的就是你是闲聊的目的是什么就是聊天本身你并不是说要得到什么呃所以这两种产品是很不一样的就是一种是你确实是要帮助他做一些事情另一种就是你就是跟他闲聊你就是找人聊天然后这个东西他可能跟你聊天就好闲聊可以获取八卦呀还是有信息的哈哈
是的其实闲聊还是很有对对对也是很有目标的很多人就说这个对话系统其实已经没什么可做的了因为 GDP3 其实就会取代所有现有的这些对话系统你在这上面做就可以了并不需要其他的任何的 innovation 或者是创新了产品就直接在 GDP3 上搭就好了我不知道你怎么看这个观点
我也玩过一些但是就是 GDP3 然后它确实是很就是有一些让人感觉到很吃惊的一些效果对吧就它最强烈的一点就是最让人吃惊一点就是你不需要任何的训练就可以马上就是搭建一个对话系统当然现在也不能训练因为现在这个 GDP3 它是它是 OpenAI 和 Microsoft 它公有它没有开源所以你也不能去 train 它
就是怎么样去就是建了一个 GDP3 的就是对话系统就是说你只要给他看几个例子就可以然后他现在但是还是有问题的就是一个问题就是说如果用 GDP3 作为一个就是以这个 goal-oriented 就是任务的这个这个对话系统的话他还是会出现这个就是 hallucination 的这个现象就是说你不能确保他一定说的是真的就他因为他是一个生存系统
那么他当然是可以就是更多情况下是因为你给他的例子他更多是会去语境中找准确的意思但是他你不能确保他一定会找出来然后这是这是一点然后另一点就是说在现在就是如果说你传纯粹让他就是做 chitchat 的时候真的是不知道他会生成什么然后有时候会生成一些很不合理的东西很 offensive 的东西
然后另外还有一个实际的应用问题就是说现在这个 API 的这个这个 call 它有一个非常局限的这个这个 text limit 就是你所以你你要是长了就不行啊就是如果说语境长了就不行所以说
还有当然了就是说最最容易点就是他还是很大一个系统你每做一个句子来你都要去做 API call 所以他是有挺多的限制在这里面的就很多的 limitation 我觉得大部分看 GP3 的东西就是说你就是说你玩一玩然后你发现就是当他 work 的时候他就是让你非常吃惊但是会经常不 work
所以说就是很有意思吧但是不 reliable 你当时第一次就是看到这个 GP3 的这个新闻和第一次上手用的时候你当时什么感觉你是觉得啊 super powerful 我还是挺吃惊当时其中有一个吃惊就是说他不是完全靠 memorization 就不是完全靠记忆就是他还是学到了一定的 pattern 就是其中其中有一点就是比如说我当时我最开始是我自己没有没有拿到这个 API 然后是朋友有
然后他们就是问就是让一 GDP3 做数学
这个东西这个做数学本身然后觉得好不是什么但是就是做一个 language model 然后你没有 train 他他就会做数学简单的数学就是当时我还是觉得很吃惊的然后后来我玩了一玩就是说他的一些生成确实是在生成好的时候确实生成的还是非常好就是后来我还做了一个小视频关于 GDP3 的一些东西我的体验就是说他比 GDP2 要好很多就是他生成的东西会确实是跟
很多很多时候和人说的是你是分不开来的但是有很多时候是非常分的开来就有的时候就是比方说你这个 submit 你按 10 次然后可能 5 次让你非常震惊 5 次就是扯淡哈哈哈对
你就看运气吧其实有不少公司现在在做就是拿 GDP3 做那个 data 数据的标注拿 GDP3 做标注还是一个挺好的方式是吗就是从你的角度来看我觉得是啊因为首先就是说从人这个做事情有没有意思的角度来讲你要去人做标注是一件很痛苦的事情所以说如果说你让人做一点标注还是很好的然后因为这个东西就是非常这个做标注是非常非常有规律的事情是不是
所以说我觉得是不错的当然就是说因为是生成模型嘛他你总是不能确定他做的是不是对的然后包括逻辑这个东西就是你不知道他做出来的东西是不是符合这个逻辑的所以说你之后你不能直接用他来标注你之后要很多就是可能还要其他一个 model 然后来 classify 他是不是正确的什么什么的当然因为
这个实在太快就是因为你完全不需要吹比如你给我一个标注我马上就可以让你让 GDP3 标入所以说因为速度快所以我觉得还是挺值得尝试的
对这其实就是又回到就数据标注这个问题我觉得我也特别感兴趣因为我觉得说图像其实之前就是做了很多标注嘛尤其什么人脸啊什么之类的让这个视觉的这上面有很多的突破但其实好像在这个 LP 这个领域特别是对话系统里面这个标注其实还是一个特别大的体力活然后数据的种类也其实挺 limited 这个其实我感觉这是不是也是一个挺大的障碍巨大的 challenge 对行业来讲
我觉得是而且我觉得一个最大的其中有一个问题是我们不知道怎么标注就是说对话你怎么样把它对话你具体说你想把它中间打出来什么就是比如说我们现在这个对话我们的这个 podcast 你要是说你去说你把它总结出来每一句精确的说了什么信息是很难的所以我们其实并不知道怎么样最好的去用形式语言然后来描述这个自然语言尤其是对话
对,因为这个其实就是回到我们刚才讲的,就是理解意思,每个人会有不同的理解,就哪怕是相同的词,这个跟图片,因为你像图片,图片里有什么,它就是什么,图片里那个人在干什么,他就是在干什么,就是信息的维度和信息的复杂度是跟文字是可能说不是一个量级的。
对对对对我觉得这就是这个我也想问你就是看就是说因为我看有一些就是机器就是视觉的东西比如说你要说标注号这个这个图片里面有什么这个是大家是比方是我们是同意的但是还有你要是往更高层次的这个标注就是说我之前看了一个信就是一个一个数据他说标注这个东西有没有意思
然后这个你就想好这就完全几乎没法标注了是不是你可以说对吧或者是这个东西他甚至是说你说这个东西描述这个事件这个东西就已经开始变变慢慢的变模糊
是的而且有相应的研究人类可以从一个图片中看到很多很多不同的逻辑然后我们是没有办法很好地让深度神经网络去理解那些我们所看到的不同层次的信息对他们来说这只是另外一个不同的 label 而已对他们来说
他们没有办法在 label 之上建立一个类似于一个框架或者说建立一个有系统性的一个比如说颜色它是一个比较低级的一个逻辑然后可能说比如说你看了一团火那火的话对我们来说会看到会我们会觉得会有危险或者是我看到火会觉得温暖就是这些东西就像你说的是几乎没法标注或者说你哪怕把它标注了就是花了很大代价去标注让它学习之后
就感觉他他理解的东西就是跟我们所理解的还是不一样的对就是这样因为就是很多事情最后对什么东西的理解就是不管这是语言还是环境都是最后是基于我们和环境之间的交互对吧就是我们为什么理解火是温暖是因为我们和火有过交互如果你没有跟火有交互你
就是不知道温暖什么意思对是这样就是这种体验嘛就是你的这个体验啊让你对很多事情有一些概念对吧你这些标注的你这些 label 其实是基于体验的我们我们的 memory 其实也是吗我们的我们的记忆其实也是吗是 episodic memory 也是情景是基于你的这个体验对就而且我其实突然想到你刚才讲到就是这个 gpt3 他会就是说一些就是胡话或者什么的
我其实比如说之前我有关注就是怎么样就是说去鉴别就是什么是假新闻 fake news 就是我说虚假新闻这个东西我们怎么样知道说 GBT3 给我们生成的那个东西它是真的还是假的还有会不会有人利用 GBT3 去做一些就是这些造谣啊这些事情对吧它会让造谣变得很容易然后我们辟谣的跑断腿嘛都是会有这个问题
对对对这个很有意思而且其实这个东西不是那么绝对的就是说什么东西真的这个事情本身是一个很有意思的事情对吧就是包括人的记忆都是记忆不是一个 recording 不是一个录像就是同样的事件不同人的记忆是有很大差别的其实而且记忆是变化的对对对对对对对对对小时候的事情就会就会变得不一样记忆就不一样
对然后你可能会越来越觉得特别美好的记忆但不是你当时真正发生的事情另外还有我了解到的就是 GBT 所以还有一个问题就是因为它的语料库是等于说是我们人类的语言然后人类的语言它本身它是会有一些 hate 或者是 bias 它就会学到这些东西然后它就是就它在生成语言的过程中它就会把我们人类的可能说不好的那一面也反映出来我觉得这个也是麻烦的你得怎么样 detoxicate 对吧
对是的怎么样做一个比人类更好的人就是还有一点就是还有一点不光是说情感的是这方面
说话本身是你会传递信息的时候你为什么会说话是因为你说的话是是给你一个新的信息这就是为什么你看见一个香蕉对吧你不会去跟你不会在你的语料中或者是跟别人说你说我有一个黄香蕉为什么不会说呢是因为大家都知道香蕉是黄的那么在语料中间你是不会知道香蕉是黄的因为你基本上是不会说出来但是
但是你会说绿香蕉你说哎你看我这个香蕉是绿的你为什么会说是因为一般来说香蕉是黄的所以说这个就是说不是说所有语言说的东西都是最常见的东西经常你为什么你说出来的事情是因为他不常见你才会说出来
所以说你如果说你光看语言那么就说哦你从来没有说过香蕉是黄的呀那香蕉是不是不是黄的但是那这个就是说你要是语言就是脱离了这个视觉其他的这个模式然后就是会有些信息就不存在然后你不能够对这个世界有一个非常非常完整的这样一个映射
对我觉得这个回到你刚才说的一个问题就是说其实需要再建一个大的模型把这个世界给装进去把这个世界先建个模因为这个模就会知道说相调是黄的不说相调的颜色那就默认它是黄的对想想这个有多难然后对然后怎么样把不同的这个媒介要这个就把它 map 起来要映射出来
我想再问问就是说因为你在这个像 Amazon 这种这么大的公司也做过研究然后现在 Velooper 是个小的创业公司你觉得就是说从跟大公司像创业公司包括这个不同类的公司做这个 research 有什么特别明显的不同吗
我觉得是这样吧就是比方说幸福的是家庭都幸福不同的不幸福的家庭各有各的不幸福然后就是我觉得是这样的就是大公司我觉得是有一些东西它是会比较像是因为大公司它有大公司这个模式就是它比如说有很多人是不是然后你有很多人你必须要计划吧
你你不能说让大家随便干什么想干什么就干什么那么计划呃那么你必须要有一定时间段就是所以说就是这一些本身就是大公司本身是因为大那么他就会有一些有些特征比方说之前在大公司就是在那个时候就是你做的东西是一个基本上是 12 个月的计划好比方说你订 12 月计划然后前 6 个月干什么后 6 个月干什么
然后呢就是计划这个东西是一个好的有好的方面也有不好的方面还有另外就是说你能够去做什么然后你做的东西是有多大的这个影响力这当然是会有局限的是因为你比如说你有几千个人在做那么在一个小的公司那个就是我是说不幸福家庭各有各的朋友我不是说不幸啊就是说小公司我觉得小公司之间的区别是挺大的就是不同的小公司之间就是千差万别我觉得
所以就是有的小公司做的研究非常非常好就是我觉得甚至是说比大公司都有一定的优势是因为有些东西你没有局限性就是没有这个 hierarchy 吧就是比如说你在一个大公司之前我在就是联发科 media tech 然后那个时候就是说如果你做的东西你上面的这个科学家他不同意那么那你就要 negotiate 是不是但是如果说你在一个比较小的公司如果说大家比较嗯
合作的比较好的话那么你可以就是让自己的想法就是比较自由的这个出来的狂跑以上然后就是我觉得自由度来讲的话我还是非常喜欢小公司的当然小公司和小公司之间是很大差别的这是一个基本的一个说法啊
那你觉得就是从比如说我们就从未来的角度来讲大方向上来讲会不会小公司想做这个就是有竞争力的 NLP 会越来越难因为我们看到模型变得越来越大可能说小公司就没有那个没有那个算力没有那个财力去跑那个 GPT3 比如说上千亿的参数然后对吧这么大的数据
对我觉得有一点上来说就是说从这个 computation 这个你有多少 computation 这个时候这个必然是这样这就是为什么目前之前几乎所有的就是大的模型也不是几乎所有的大模型吧都是大公司或者是非常有财力的大学摆着那你不可能说我一个小公司花 200 万然后去 train 一个 model 那是是不可能的
那么但是呢有的时候局限是一个给创造就是增添就是新的角度的一个东西对吧所以我觉得就是还是有一些问题他不是完全要靠大数据来解释你想想大数据是什么是吧大数据你最终如果数据越多你最后是越走平均那么有一些问题他不是一个平均问题他是一个边缘问题
那么一个边缘问题你就不应该用平均数据来解释那么那种时候你就专门要是专门就是看跑到最边上去然后看那一个小问题那么如果说这样的话你作为一个小公司或者是小的一个实验室因为你没有那么多钱去穿然后你可能去找一些问题是大家没有想过的还有一点就是你可以去连接一些事情就是说
如果你举你的想法主要是说哦怎么样变大变大你把这个抛开之后那么有些是可以把一个新的应用或者一个新的观点一个角度
然后因为其实你看看就是说科学的发现就是说不是说一定是最大更高更强一定才会发现是不是有的时候是一个非常没有就是没有意识到的比如说那个 Richard Feynman 他得那个诺贝尔奖的时候他之前得到那个奖是有一天他看见在餐馆里看见一个盘子旋转
然后觉得这个有意思这个旋转我怎么样把它把它解释一下所以这个东西不好说所以说虽然说从概率上讲觉得有更多的优势更多的人但是有的时候一个重大发现它是一个非常不经意的一个东西对所以这个还是有很多 exciting 的这个事情可以做的在一个小公司特别是创业公司绝对绝对我知道你也在做视频对吧能跟大家简单介绍一下你的视频在哪里能看呀哈哈
我对我自己就是做一些事情呃就是自己弄着玩其中是一个是我我做一些就是关于 nlp 的视频然后目前是在 youtube 上但是我就是尽量打算这个就是一拖再拖然后可能比如说把它翻译成中文然后呃在其他的网上放一下然后另外我自己平时就是就是做一些游戏开发就是就是有几个桌游呃也是这也是另外其他做的一些事情
对到时候我把那个桌游的那个 Amazon 的链接到时候也可以放在节目的那个介绍里面去对我还想就是对我现在一个新的桌游我打算会出中文版我们的节目终于有恰饭环节了做到二十多期了终于有广告摊位了哈哈哈哈
不过这个你作为第一期广告主我们可以给你一个优惠哈哈哈哈那好非常非常感谢你的时间然后期待你的新桌游 OK 谢谢能剧透一下大概是什么方向的先是一个跟情感有关的桌游就是是一个就是两种情感之间的对抗对就是一个愤怒和平静的之间的对抗期待期待非常非常期待那这个肯定是情人节大卖的哈哈哈哈
好那非常感谢你的时间那我们今天的节目就到这里感谢大家收听我们下期再见拜拜拜拜感谢大家收听我们的节目欢迎给我们留言你的看法喜欢我们的节目不要忘记订阅啊我们下期再见