我是来自科大训飞 AI 研究院的李鑫就是那个宋浩老师说到听过他 B 站课程的这个来自安徽的男人但是我不老这个手法在脱口秀上叫做 callback 所以我想用这样的手法来 call 一下我们人工智能的历史长河我这个题目呢叫做最后一个需要人来解决的问题我想可能很多人都能猜到这叫关于人工智能
在人工智能发展史上呢,往往会分为三个台阶,一个呢叫做计算智能,一个叫感知智能,第三个台阶呢叫认知智能。很显然在计算智能这个时代呢,其实计算机已经完全碾压人类了,无论是它的这个运算的速度,还是我们说它的这个存储的这个容量,其实比人要强大很多。到了这个感知智能这个时代呢,我们通常说的是智能语音,包括图像处理的技术。
所以我们经常说叫让机器能听会说其实指的就是感知智能那么感知智能现在到底发展得怎么样呢我想给大家举几个例子我们先来看看让机器能听让机器能听啊就讲的是语音识别的技术就是你给它输入一段语音它能给你输出文字相当于让机器长了我们人的耳朵
左边这张图是 2010 年的时候我们发布的这个讯飞输入法现在的人用语音输入已经很稀松平常了但在那个时候给你一段语音输入然后能够马上的实时变成文字其实对我们的生活工作还是非常的方便的那现在这个技术是什么样的我们来看右边这个视频
我今天要说的是人工智能和社会我们都知道今天在这里的人工智能在过去大约 15 年里取得了巨大的进步我在这次发言中想要做的基本上是谈看我所看到的人工智能将影响社会的一些主要趋势
在这个视频里边其实这个老外说了是他自己国家的语言然后通过语音识别的技术呢转换成了英文再通过语言的翻译呢翻译成了我们能听得懂的中文其实这就是语音识别技术现在的语音识别技术呢不仅仅是在安静的场景下在大会的场景下它在往更加复杂的场景去延伸
包括我们像在一些公共的场合里边它有很多的噪音在我们居家的场景下它有很多的回响还有在一些很复杂的比如说酒吧里它可能有鸡尾酒的效应这些技术都在逐渐的被语音识别技术的研究者去攻克说完了能听我们再来听听看看这个会说机器的会说指的是语音合成的技术它实际上是语音识别技术的一个逆过程识别是给语音生成文字而合成是给文字生成语音
左边我请来了一个神秘的嘉宾我们来一起听一听看看大家知不知道他是谁把所有的注意力放在当下不管过去不管未来不管周边做当下最该做的事大家能听出来他是谁了吗对特别热爱学习的同学都能猜出来他是得道的创始人罗振宇先生这个声音是合成的并不是他本人说的
那这样的一个合成的这个技术呢并不仅仅是我们说的明星或者大的流量 IP 的专利现在的普通人你大概说几分钟的声音我们就可以基于你的几分钟的声音呢提取出你的声纹然后可以生成出你去讲任何文字的这样的声音所以对于一些出差人士来讲你虽然出差了你完全可以用你自己的声纹在家里给小朋友讲故事读绘本这是我们讲语音合成技术可以用的一个地方
那左边呢我们是听到了声音但没有看到本人是只闻其声不见其人那右边呢我请我们的虚拟人同事小资和大家打个招呼欢迎大家来参加由中国科学院计算机网络信息中心主办的第 111 期主题为潮起 30 年格之论道活动我是台上这位讲者的同事小资非常荣幸能够和大家分享我们一路走来让机器能理解会思考的故事
所以左边是只闻其声不见其人右边是既闻其声也见其人所以不仅可以声音变得非常的鲜活而且形象也可以微妙微笑它的唇形是由我们的声音来驱动的就是你说到什么样的声音的时候它的嘴唇会动到什么样的程度实际上和真人是一样的所以能听和会说实际上就是构成了我们的语音识别和语音合成的技术而这些技术的背后实际上有互联网非常重要的作用
我们在内部呢叫联谊效应讲的呢就是当我们的用户数上升的时候用户贡献的数据的量也会上升那随之呢我们的技术的水平也会逐渐的提升所以有一个数据是当我们讯飞输入法的这个越活用户逐渐上升的时候我们语音识别的错误率每年注意是每年会下降相对下降 30%左右
这就是我们讲的数据越多会使得我们的模型迭代得越好而模型迭代得越好会使得我们的产品愿意有越来越多的人去使用而人去使用又会产生更多的数据它就会形成一个正向的良性循环如果这一切没有互联网这些鲜活的数据是没有办法反馈回来的那么模型的迭代就会非常的缓慢这就是互联网带给人工智能技术进步一个最大的重要的作用那说完了我们的能听会说我们自然而然就要迈到我们的第三个台阶就是我们的认知智能
但是认知智能在做自然语言处理的时候其实会有很多的问题我们给大家举几个例子比如说冬天能穿多少穿多少夏天能穿多少穿多少仅仅是季节的变化文字没有发生任何的变化但是它的语义完全不同前面是让我们要尽可能的保暖后面是让我们尽可能的清凉
再举个例子校长说身上除了校徽别别别的就像我今天上场的时候讲者给我这贴了一个标识说除了这个论坛的这个标识之外别别别的这里的别别别的这个三个字看起来是一个字但是语义上完全不同第一个别是不要的意思第二个别是佩戴的意思对吧动词第三个别呢是代词其他的东西
所以别别别的这种一词多义计算机怎么去理解这也是我们做人人智能里边非常重要的一个挑战再比如说我们的中文和英文很大的一个不同点是英文的每一个 word 和 word 之间是有空格的中文没有所以怎么样去切词实际上是中文里面一个很重要的一个挑战所以我们有这么一个横幅正常的读法是三餐二楼欢迎新老师生前来就餐
但如果断句不当就会闹出笑话叫做三餐二楼欢迎新老师生前来就餐所以中华文字的这个博大精深实际上在当时这个 AI 技术实际上是很难去完全能够 cover 住的所以它是捉襟见肘的那么之所以会这样呢一个很重要的原因就是我们看到的是文字但是文字底下的这些知识常识和逻辑实际上是我们去理解这样一个文字的很重要的基础
如果我们没有感知夏天和冬天的变化这种常识我们是没有办法理解什么叫做能穿多少穿多少的如果我们不知道什么叫做一词多义这种普遍的知识我们也是没有办法去理解什么叫做别别别的所以让机器能听会说的下一个台阶能理解会思考语言是非常重要的一个核心
我实际上是 10 年的时候做硕博联读的时候我就一直在做自然源处理的工作那时候 10 年的时候叫百团大战现在叫百摩大战百团大战就是很多的团购网站在一起去打拼那个时候一个核心的技术叫推荐系统就是你喜欢什么我就给你推荐什么这会使得我们的电商有很高的营单量
我当时做的事情就是把大众点评和美国的 E-OFT 网站上面用户的评论数据拿来做分析从而给用户去推荐他们合适的喜好所以就是会给他们推荐合适的餐馆或者是合适的菜品以及他们可能会认识的人或喜欢的人就是基于用户的文本来进行挖掘所以我一直是在做语言文字相关的工作
恰好那个时候呢就讯飞当时在 14 年的时候提出来说要做语言和语音成为机器认知革命的入口而且发布了讯飞超脑计划说白了呢就是要做这个赞源处理而且是在那次的发布会上呢提出来说要让机器能理解会思考
我觉得其实和我的这个方向还是挺接近的所以我在 15 年这个博尔毕业的时候呢我就这个顺理成章加入了这个训飞继续从事我的相关的研究工作那么我进入到训飞之后要干的第一件事呢做的是作文批改
在那个时候的这个作文批改实际上这个想想都很简单对吧需求是很自然的因为我们以前念初高中的时候老师给我们布置一篇文章很简单就是一个题目扔给全班同学去做然后每个同学呢要写 500 到 800 字的文章交给老师但是问题来了你交给老师的时候呢老师改作文比布置作文要痛苦很多因为每一个学生的文章他都得看所以在我们那个时候老师能给我们画几个波浪线我们就觉得已经非常心满意足了但是这种几个波浪线呢
既不能帮助我做特别好的提升因为我并不知道说怎么样去写得更好老师没有很详细的评语此外呢全班所有的同学都去让老师批改呢老师这个工作量也很大我们在想有没有可能用人工智能技术用这种自然语言处理的方式让我们的老师能够减轻工作量而且让我们的学生呢能够在作文的写作上有更好的提升所以我们第一个任务设置就是作文批改
而在做这样一个任务的第一个方面我们做的就是得分的预测就是这篇文章如果是 100 分制的话我们大概能给这个文章打多少分
这个问题呢相对比较简单为什么呢因为在我们这个很长时间的历史的这种教学的过程当中实际上老师们都总结了很多给作文评分的维度对吧比如说词汇量啊优美的语句啊等等这样一些方面我们完全可以根据这些教学的方式方法然后从我们的这个文本里边提取一些特征然后呢把这些特征和我们最后的得分做一个映射是
实际上就是用人工智能技术的方法来做这种得分的预测这个问题呢很快就迎刃而解了但是这个问题解决之后呢其实老师们是不满足的他们就会特别希望说既然这个文章得了 94 分你能不能展开说说这个展开说说就比较困难了展开说说就意味着你要解释为什么它是 94 分好好在哪差差在哪怎么改进这个问题其实一直困扰我们主要的难点其实有两个第一个是什么呢第一个是
我们在做评语的过程当中实际上评分是一个很模糊的感觉虽然它是个定量的东西但是你说 90 分 88 分其实差别有多少人们对于这种数字的感知是有一个误差的冗余感但是当你把一个文字说出来它好在哪坏在哪的时候每个人的价值观和价值取向是不同的这就造成当我这个产品做出来当我这个技术做出来的时候不同人对这样一个技术的效果的评估是不同的这是第一点
第二点我们当时的人工智能技术在做自然源处理的时候实际上都还是很浅显的除了理解字面意思之外顶多往下理解深层次的一层含义就不得了了关于这些句子里边的内涵实际上是很少能够去理解的这就造成我们要想给它一个合适的评语我们就必须要准备一些评语的库一些模板的库用这种库来配合我们的自然源处理技术
但是随着这个产品的发展很多人看了这些套路的东西其实就不太满足了所以大家希望看到一些真诚的东西而不仅仅单单是套路那么这个产品和技术就不一定会被客户去认可所以作文批改这个技术一直停滞不前直到 2022 年的时候 ChargeGPT 推出
在 2022 年 11 月 30 号的时候美国 OpenAI 公司发布了这个 ChartGPT 我想现在很多的人都在使用这样的大模型的产品我们国家其实也推出了很多的自主可控的大模型应该说这种大模型产品确实是在颠覆我们的认知而且在我们的工作和生活的各个方面其实都扮演了非常重要的角色那到底什么是 GPT 呢其实 GPT 很简单用 OpenAI 公司 CEOSam Altman 的一句话来讲他就是在预测下一个单词去 predict next token
我这里给几个例子大家就可以看到了比如说日本的首都是什么我们让大家预测的是横线上的这个单词中国的首都是什么我们让大家预测的是这个单词北京如果我把日本和中国两个字盖住我们仅仅问大家首都是什么的时候不同国家的人他的回答是不同的你问中国人中国人肯定说是北京对吧你问日本人他是东京你问法国人德国人他们的答案是完全不同的
所以我们的预测的准确率以及我们的预测实际上是依赖于我们前面到底提了什么样的问题或者是我们往前到底看了多少个单词如果我把日本和中国这两个字放开我问大家无论是我问中国人说中国的首都是哪我现在把这个问题问给全世界的人他们都会一口同声地回答中国的首都是北京这就是因为我们往前看的单词的数量已经足够多了所以这件事只要是知识它是存储在所有全世界人的脑子里的
但是当我们把这件事放到历史的课本当中再去问大家的时候中国的首都这个横线上可能就不一定能这么填了比如说唐朝的时候中国的首都市你就应该填长安马可波罗到中国的时候中国的首都市我们就应该填大都所以预测下一个单词到底怎么预测完全取决于我们前面到底提供了什么样的上下文信息也就是往前看了多久
这种往前看单词去预测下一个单词的技术就叫语言模型所以我们现在讲叫大模型大模型大模型的全称叫大语言模型所以你看里面有语言模型而语言模型的本质就是我刚才举的这么简单的几个例子而它所谓的大我们现在看到的是参数量大数据量大它的大的本质的应用的需求是我可以往前看更长的文本现在的大语言模型已经基本上可以吞吐到 100 万个单词的左右的体量应该说是非常多的
所以这就是我们讲的大语言模型那没有 GPT 之前我们在干嘛呢难道我们就不做这些任务了吗没有 GPT 之前我们用的一个模型呢叫 BERT 这是个小模型那为什么 GPT 没有恒空初始之前我们用这个 BERT 模型而不用 GPT 呢原因很简单有两点第一 GPT 当它参数量很小的时候它的效果其实很一般的 BERT 模型完全可以碾压 GPT 所以我们没有理由放弃一个效果更好的模型这是其一
其二是 GPD 当它参数变大的时候它需要的算力也更大所以说白了就是你花的钱花的成本更多对于一些普通的高校和科研院所来讲是买不起这个服务器的通常来讲我们买几台服务器完全可以跑一个小模型但是想去跑大模型来讲实际上就很困难了更别提去做大模型的迭代和优化了
所以 BERT 这个模型是看两边的信息让你猜中间相当于是把句子里面的某个部分挖了让你填空而 GBT 呢是只看前面让你预测后面去预测下一个单词是告诉前面预测后面
所以 GBT 的这种应用感觉有点像什么呢有点像我们跟小朋友在家里玩这个成语或者诗句接龙你问他床前明月他会答光仪式地上他会答霜甚至有的时候随着小朋友年龄长大你只需要提示一个单词他可能就能把后面的句子给你接出来这个其实就是 GBT 而 BERT 呢更多的是用于做自然语言理解的任务会更多一点
所以我们在没有 GPT 之前或者是 GPT 没有到达这样一个参数体量没有出现智能涌现之前更多的都是 BERT 这样的小模型我们实际上是在 OpenAI11 月 30 号发布 ChartGPT 之后我们在内部实际上是体验了一周然后也分析了一周之后我们在两周之后我们决定要开始这样的公关去压强投入买更多的服务器收集更多的语料然后要训练中国人自己的大模型
我们当时从第一行代码开始构建我们的星火大模型然后当时定了一个框架叫做一加 N 一呢就是一个通用的认证智能大模型这是一个认证智能大模型的底座它实际上是学习了世界上所有的互联网的知识然后对于这种自然语言理解不仅仅是文字层面的还有含义层面的还有语义层面还有更深层次内涵等等这些层面这样它就能够理解我们想说的话
在这样一个通用大模型的基础之上我们就可以构建很多垂直行业的小模型比如说教育的模型办公的模型汽车的模型还有交互以及医疗等等这样的模型这些模型构建在大模型基础之上把他们这些领域的这些知识和语料拿进来同时还可以用他们的语料去做一些二次学习训练得到一个更大的规模的模型就可以在这个领域应用得更好
所以这是我们做的星火大模型但是这样的大模型现在效果怎么样呢我们可以给大家看几个例子这是一个图像理解的任务简单来说就跟我们小学时候做的这个看图说话一样所以我们可以看到它生成的效果既有宏观层面的也有微观层面的既有前景的信息也有背景的信息
这里实际上是给他描述了一个地图让他去理解他的空间方位感所以他不仅有图有真相更重要的是他还可以是一个活地图帮助我们去理解东西南北这个例子是我前两天从 2023 年安徽省的高考的最后一道压轴题解出来的我们把它输入给大模型之后大模型可以很正确的解答
而且答案是完全正确的我是对到过参考答案所以现在让机器去考大学基本上是没有什么太大的难度了只要我们的文字的这些符号输入的是足够正确的话是完全没有难度的既然技术已经发展的足够好了是不是就意味着它没有问题了呢其实并不是有很多的缺陷实际上是仅仅靠大语言模型本身是没办法解决的
主要来讲有两个一个是新知识很难以实施更新我们是去年 5 月 6 号发布的比如说我们在去年刚开始发布第一个版本的时候我们就会问刚刚过去的五一劳动节全国前三天大概发送了旅客有多少星火和 GBT 都很难回答出来为什么因为一个模型的训练通常需要一个月或者是几个月甚至更长的时间随着参数量能扩大模型的训练周期更长所以你们现在用的大模型实际上都是几个月之前训练好的
那么在他训练好的那个时候开始训练的那个时候到现在发生这些事实际上是没有进入到他的语料体系里面这就意味着他对这些新知识很难获得第二个缺陷是我们经常说的他会一本正经的胡说八道就是会对一些事实问题张冠李戴胡乱编造所以当我们问他说唐朝的第三任皇帝是谁的时候他会说是唐太宗李世民我们都知道是李治所以这些问题怎么去解决
我们就得从根上找问题大家想想人是怎么解决这个问题的我们经常说叫知之为知之不知为不知是知也就你知道的你回答不知道的你不回答我举个例子比如说我们现在问大家说新中国什么时候成立大家会一口同声说是 1949 年因为这是知识但是如果我问你塞尔维亚共和国什么时候成立
很多人会语色因为你不太了解这个冷门的知识这个时候人会怎么做人一定是上互联网上去检索信息然后去统合一些信息之后给出答案这不是知识知识叫逻辑因为你在用逻辑在整合信息所以在人的判断里面人是把知识 knowledge 和 logic 做分开的
但是现在在大模型里面逻辑和知识是偶合在一块变在我们的神经网络里面的所以要解决张冠李戴的问题解决胡说八道的幻觉问题实际上是需要把我们的知识和逻辑分开除此之外呢我们要做这个新知识的更新不可能让大模型每一次都有最新的知识去自进化那我们就需要接入一些互联网让它自己从互联网上找到信息然后对这些信息呢做自己的整合这就是我们讲的这个检索增强的技术
所以靠模型结构里边知识和逻辑的结偶以及这种检索增强实际上我们就可以让大模型克服知识难以更新以及张冠李戴的这个问题了那有了这样的大模型技术我们再回到当时困扰我的一个问题就是把作文批改再做一遍我们现在就可以做得很好了除了可以给学生提供基础的批改包括字词剧短篇这样一些问题的修改还可以做一些高级的批改以及提升的建议甚至可以给他一些优化的参考
我想这一次大圆模型真正把我们以前想做的很多技术变得可达也让我们的产品呢也变得更加的现实可以简单来说现在互联网上所有的产品其实可以拿大圆模型重新再做一遍那我们刚才讲的呢实际上是面向大众的这样一些应用
我们就在想有没有可能让他考完高考之后上了大学有没有可能让他做一些学术性的事情我们发现这件事是有可能的因为大模型学互联网的知识实际上只能增长他的见识他见多才识广但是如果让大模型去读我们的科技文献读论文读专利读我们的标准他也许就能增长他的学术的见识
所以我们跟中科研文献情报中心就做了这么一个叫做科技文献的大模型把我们的论文喂给他把我们的专利信息也喂给他让他去学习所以现在我们就可以在网上去让大模型做一件什么样的事让他去做成果的调研以前我们做调研的时候需要看很多的文章然后自己去总结生成一篇综述现在你只需要输入几个关键词他就可以大致的给你在这个方向上写一篇综述文章出来总体不超过两分钟
我们以前做研究生的时候需要去粗读论文也好精读论文也好粗读你一天五到十篇精读你一天顶多一到两篇不得了了但今天你如果有一篇很长的文献给到大模型大模型可以通过交互的方式你可以通过问答的方式让他帮你去快速地阅读这个文献可以提升我们科研的效率
我想具备了这样的一个能力的大模型实际上就已经有了高年级本科生的水平他就可以去从事相关的领域的研究了做到这我们还不满足我们就进一步想如果他本科毕业之后他想念研究生他应该去念一个什么样的专业的研究生有没有可能让他变成硕士博士甚至是科学家呢我们在不断地求索所以我们就希望说他从一个助手从一个助言变成我们真正的科学家的同事
我们选了一个方向叫做合成科学从我们的衣食住行都离不开合成科学它和化学材料生物环境息息相关所以丁院士有句话叫做合成科学是通往物质自由的希望之门有了合成科学我们可以做物质自由那物质科学的合成呢其实很难我们在高中都学过这个高猛酸钾要分解制氧气这样一个实验就是你要加热加热它完了之后变成水还有氧气还有一些其他的产物在这个过程当中呢底雾
对于我们来讲实际上是非常重要的那底物有多少种呢底物有有机物也有无机物光它这种种类呢就有 10 的 180 次方种非常的多第二个难点是什么呢是条件外在约束的条件很多
温度压强这样一些东西而且大家知道温度实际上是从零度一直到很高的温度它都可以变化有的是零下多少度有的是零上多少度而且这种变化既可以是离散的也可以是连续的所以它的取之很多当多个条件综合作用的时候这种组合条件概率组合其实就更多了除此之外它的这种反应的网络不是一步完成的是多步完成的这种合成的路径也非常的多
就好比我从合肥来到北京我既可以坐火车也可以坐飞机我既可以是直达也可以是中转那怎么去选择这样一个合成反应的网络的路径其实也非常的重要那特别有意义的一件事情就是大模型今天在理解语言的基础之上它还可以理解我们的科技文献举几个例子比如说这就是大模型对于我们科技文献里面这张表格的读取这张表格里面就蕴含了我们要用来做化学反应底物的这个信息
所以是不是大模型读完我们的文献之后它就可以收集到所有用来生成一些物件的这个底物是什么等到我们想要合成一个新的物质的时候它就可以找到相似的合成产物并且推荐一些合成可能的底物给它另外一个我们的文献里面其实也包含了一些反应的步骤除了我们通常在文献里能看到的 first second thirdly 这样一些显著的英文还可以包含他们的 then after 这样一些隐世的这样一些表达
我们就可以知道说化学反应到底应该怎么样一步一步的进行最有意思呢其实是这个图我们知道论文里面不仅仅有文字还有图和表这张图的横坐标呢实际上是这个湿度纵坐标是压强
科学家在反映的时候并不是说所有的产物生成了我都需要他们要的实际上就是中间蓝色的这一块而红色和黄色实际上是残次品他们是不需要的这就意味着必须把我们的湿度和我们的压强控制在一个比较合适的范围而且注意它不是线性的控制它是一个曲线的控制打个比方就好比我们家里煮饭一样
你水放多了变成了稀饭水放少了变成了夹生饭那怎么样让这个米饭变成香喷喷的大米饭就需要控制它的水量甚至是它的压力所以做合成科学的人去合成这个材料和物质的人其实也是一样需要去控制这些条件
那我们就可以让我们的图像的大模型去读这样的一个表和图然后从里面把我们需要的条件给它抠出来以及在条件和条件之间建立它们相互之间的联系和曲线函数从而使得在未来需要去合成一个新物质的时候我就能够把这样的条件能够贡献出来我想有了我们能够推荐底物也能够知道反应的条件还能够给出合成的路径加之我们再配上一些实验的机器人就可以让整个实验的流程自动化
就可以让我们的实验室不仅仅可以朝九晚五还可以变成 007 而且注意这不是我们人在卷是让机器在卷我想可以释放我们很大的这个科研精力去做一些更加天马行空的设想去攀登更高的科技制高点所以总体来讲呢实际上人工智能是站在我们新一代信息技术革命肩膀上的另外一个台阶
如果说工业革命呢是把人类从繁重的体力劳动当中解放出来因为有蒸汽有电力那么信息技术呢就是把全世界紧密的联系在一起正如我们的互联网把我们联系成了一个地球村一样而下一个台阶的智能革命则是要把人类从繁重的脑力劳动当中解放出来
所以我们今天以大模型为代表的通用人工智能技术已经发展的特别好了我们已经能够看到人工智能的星星之火已经开始燃起我们特别希望所有的人都能够加入我们一起我们让这样的一个星星之火能够服务我们的经济社会发展能够促进我们国家经济增长的一个新的引擎形成它的新的生产力并且能够形成燎原之势谢谢大家