我们从技术的发展上来看到的一个巨大的可能性刚才说到人工智能发展它其实是有拨风拨鼓的在 2010 年泡沫破裂然后深度学习登上历史舞台然后那时候会诞生了一些以人类识别为主业的机器视觉的公司也包括语音方面的公司
比如说你要买一个披萨比你想买厚的还是买薄的吃些海鲜还是牛肉的要描述一下你就告诉 GPG 它首先要分解你需求分析完需求之后它可能会去往上调调完之后那边会给你一些反馈然后你基于反馈再形成一个最终的调用指令你就发给他了直接下单
我懂得当时我要半小时内能够送到的最便宜的海鲜披萨然后他就会自动生成一个下单的指令然后从我的支付宝里面把钱扣掉过半小时就自己会送人工智能的发展肯定会带来社会工作内容会被逐渐的自动化甚至被机器协作来完成那么在教育方面让同学们真正的感受到用愿景驱动去做事情的这个力量
同学们包括家长选专业都喜欢说我找一个好的工作高薪工作压力也没那么大但是其实应该是找到一份自己能够全身投入的工作然后自己在这方面也有天赋或者说有一些兴趣能够持续地做下去
大家好 我是华泰证券科技与电子行业首席分析师黄乐平那今年人工智能非常火热然后人工智能似乎要改变我们的生活改变我们的就业改变我们的教育大家肯定有很多的烦恼很多想知道的事情那今天我们来到清华园和欧志坚教授来聊一下人工智能的未来我们有请欧教授
感谢乐平总的介绍我是欧志坚很高兴和大家交流我这边其实是从 2003 年博士毕业之后就在清华从事人工智能语音语言技术相关的教学与科研工作那么做起来就有 20 多年了今天我们一起来畅想一下人机对话技术
那欧教授就是说你看人机对话技术从最早的对话机器人 Alisa 然后苹果公司发布的 Siri 然后到今天的 CHIGBT 就每一代的人机对话技术的背后对市场都有很大的期待您能不能帮我们先回顾一下人机对话技术就发展过去这些年是怎么过来的或者说这两年取得了什么样的进步人工智能的发展
其实历史很长了我们可以追溯到上个世纪 50 年代了它的门牙是 1956 年的达特茅斯会那时候有了 Artificial Intelligence 就是 AI 的这个说法那么在这个过程中它其实经历过一些波风和波谷那我们切实能感受到的一个小波浪其实就是 2000 年左右互联网泡沫破裂那时候会影响到人工智能技术相关的产业的从业者
政府的经费可能会受到影响然后从业者可能会在这个人工智能相关的行业里面比较难找工作同学可能也会谨慎地进入这个行业那个时候我们可以感受到一点点的小低谷但是随着大家都知道这个 2010 年
深度学习为代表的新一代技术的这个新企业人工智能又发展到了一个新的高度所以我们现在从历史的大波浪讲我们是处在第三个高峰而且我们还一直能看到这个高峰还在不断地延续发展现在大家讲这一波人工智能叫大力出奇迹嘛您怎么看比方说您从 03 年或者说您读博士的时候开始到现在
研究人工智能的引用的工具的方法是怎么样变化我不知道就是说因为那时候肯定还没有 GPU 那时候因为因为大家应该差不多那时候刚成立就从那时候到现在它的方法上有什么变化做人工智能这方面的研究有很大的变化特别是在刷名方面另外在数据方面都会给人工智能的研究带来很大的变化
首先我们说一下算量其实 2010 年深度学习爆火背后的原因大家也都可能能感受到一个就是因为拿没代表推出的这种 GPU 就是用图形卡用在这做科学计算上能够通过并行来加速科学计算让神经网络的训练变得
可行起来之前我跟一些朋友也聊过说这个神经网络其实是七八十年代就有的那为什么到 2010 年才被大家所挖掘出来那这里面背后可能有技术原理上的一些突破包括国外的一些像这个你拿过图灵奖的 Penton Banjo 和 Yalakon 他们算法
模型上面的一些贡献在这之外其实也要有一些算力让这些模型和算法在可行的时间内能够运算出来所以算力是一个很大的深度学习火热的一个贡献没有这个算力可能你跑时间可能需要一个月才能跑一次结果那有了这么好的算力之后你可能一个小时就跑完了
第二个就是大数据比如说我们原来做云识别的你在这个训练级的选择上面可能在 90 年代的时候你有几十小时的训练量就很不错了后来从几十小时变到几百小时变到几千小时现在很多这种商用化的
云识别系统可能都是几万小时训练出来的那像我们的图片也是一样原来可能就是几千张图片做一个人脸识别的这个训练现在可能是一亿张这个图片为规模的那么我们最近火热的这个 Chad GPT 它的训练语料是 T 级别就是以 T 级别为单位的文本训练出来的所以大数据和大数据案例可能这是在除了
模型和算法之外非常重要的推动力量那么在这个推动下就是让这个人工智能的技术发展了一个新的高度让大家看到了这个未来的这个五到十年它可能会有更好的发展甚至可能都能摸到通用人工智能的这个边边了对您也讲到通用人工智能我觉得您上次在世界人工智能大会上我们见的时候您讲就是这次人工智能有可能是蒸汽机和汽车革命之后一个很大的一个革命嘛
我们在 17 年那时候 AlphaGo 下棋觉得世界要变了但实际上你看从 17 年很多公司创业到现在最后也只做出了一个人脸识别我觉得您现在这个时间点您觉得这一波和以前那一波是不是有什么变化或者说您觉得这一波是不是真的像第四次工业革命或者怎么样应该怎么理解这件事情嗯
这是非常好的问题刚才说到人工智能发展它其实是有拨风拨谷的 2010 年泡沫破裂然后深度学习登上历史舞台然后那时候会诞生的一些以人类识别为主业的一些机器视觉的公司也包括语音方面的公司解决了一定的实际的问题包括
我们现在能看到像人脸识别指纹还包括我们手机上可能会装一些云的转移的软件包括我们可能正在用到的像机器翻译这些确实达到了一定的水平但是 ChatterGPT 这一次带来的可能它的高度会更高一点我们说人的智能它其实很重要的一点就是它运用语言的能力就是
语言其实是人的高级智能的一个重要的表现有的人说以前的像机器视觉我们能够看清楚东西看清楚人脸我们语音可能有一些声音把声音转化成是这种音数或者是符号它那时候有点像是动物智能 Animal Intelligence 但是 Human Intelligence 其实是很重要的就是它能够运用语言在 GBT 在这一点上其实相比以前有一个很大的突破
我们也可以看一下人工智能的发展其实从 2010 年它最先突破的其实是在语音识别和机器视觉或者说这个图像识别图像识别这个 ImageNet 为代表的把这个周围的这个物体它能够识别出来识别出是杯子是哪种花是哪个人对吧语音能够识别成文本它其实很多的时候感觉是一种感知但是语言它不一样它其实是人类高级智能的一个突出表现
动物没有语言的语言的话如果能够在这一方面带来一些认知智能的突破的话那它相比前面的这个感知智能那是一个层次的提高所以在这一点上我们看到以语言为代表的深层次人工智能有可能能够在语音图像感知的基础之上迈向这个通用人工智能
的可能性我前段时间我记得华尔街日报上读一篇文章是基辛格和 Google 的以前的 CEOEric 他们说那个是启蒙时代以来最大的变化说过去人的学习方法是说把知识固化成书本然后一代一代传承下去但是书本上固化下来的内容是百分之百正确的
但是它固化的过程是很慢的积累过程是很慢的但现在是有一个叫大模型的东西它把全世界的东西都收集起来有可能会有一部分错但是它学习的过程是很快的
我觉得基辛格那个讲的蛮有意思他说就改变了人的学习的方式基辛格 Google 和那个 MIT 的 Media Lab 的 MIT 副校长他们写的一篇文章我不知道您从自己做的时候您会觉得大模型出来以后人的学习方法是不是会变掉我不知道您自己做研究感觉有没有这个体会好
他们这个说法我觉得蛮有意思的就是从这个人类知识的传承和学习方法上来探讨就是人工智能不断地发展这是人类带来的影响是吧这个影响是其实挺深远的我们做人工智能的人也没有想到其实机器啊咱们说替代或者说辅助人类解决问题最先做好的其实是劳力劳动者啊
比如说书面文档一些写作信息的咨询这方面其实是现在 CHAT-GBT 能够比较好的辅助人类完成当然后面我们可能会谈到它存在着一些这种随机编造的问题但在这一点上它其实帮助人类在这一块去进行基于知识的信息服务或者基于知识的传承上有一些比较大的改变其实
其实在某个意义上对于我们未来人就是包括我们的教育包括我们的人类学习的一个很重要的启示就是这种意义的复制性比较强的工作有可能会被最先得到改变可能最先是被协助改变然后最后可能会被替换掉
反过来讲就是人类它的创造力想象力方面还是有它的独特性是机器目前还很难改变得了的包括人类的高度的抽象视维的能力我们有时候开玩笑说牛顿看到苹果落地他就能想象出去研究引力现在的机器他可能不想这块能力可能现在机器还没摸到门
但是机器可能在一些可重复性的易记忆性的知识运用上面它掌握的比较好了所以这对我们所有的人也是一个启发就是我们要去做创造性的提炼性的这个工作而不是是简单的是一个复读机那这样的工作可能很容易被替代掉在教育上我们也是这样就是
同学们应该跳出来思考这个问题而不是说是老师教的什么你把它使劲音背背完之后你就生发音套了就解决问题那这种能力可能很快被机器会替换掉但是如果你能创造性的解决问题我觉得是人的关键能力
您在世界人工智能大会上提了一个就是最后一公里的问题就是说 CHI GPT 的技术到最后一公里现在不可控那我不知道您能不能帮我们讲讲看就是现在到底现在 CHI GPT 存在什么样的缺陷在最后一公里的商业难题在什么地方对我们
很能感受到 Chad GPT 所带来的变革我们说这个是绝对是人工智能发展史上的一个大事件但是就像我们说人工智能的魅力也在于它永远在路上所以它在某些方面也存在一些不足其实在这一点上 OpenAI 是做了比较诚恳的声明的
如果有兴趣的同学可以看一下这个在 OpenAid 的网站上他其实很好的做了比较全面的有关 CHAT-GBT 不足的声明其中有几点我这里分享一下一个就是有关他所谓的刚才说到的不可控
或者说它会一本正经的胡说八道英文叫 Hallucination 就是随机编造它会编造出一些没有的事实会产生一些事实性的错误那这个在商业应用中其实是不可接受的这就是我们说的 ChatGPT 这样的目前的生成式的大模型在专业商用应用中最后一公里的不可控
有关这个问题其实在学术界有过很多的探讨了在这个发展过程中大家也想了各种形形色色的办法那目前比较主流的一个办法就是做知识增强的大模型其实人类的语言和知识这两个是混搭在一起的因为我们的知识是通过语言表达出来的
我们在日常交流的时候又是通过语言去进行沟通的一般来讲就是说语言和知识这两个合在一起我们说它有两种基本能力一种就是我调用知识解决问题的能力第二种就是说我在跟人沟通和交流的时候我用语言表达的这种能力或者说这个逻辑上的语言表达的这种能力那么这两个能力其实在现在的 CHILD GPT 可能在后者
就是他会比较流畅的没有语法错误的把文字表达出来你如果不从事实性的错误和知识角度出发你看不出他有错误但是人还有一点很重要的他会调用知识来解决问题
所以在这一点上我们叫做知识增强那么这种知识增强有各种手段比如说现在比较流行的可能用限量数据库的方式去进行知识增强也有可能用那种英文叫 agent 中文可能叫做智能代理的方式它可能经过多步每一步可能会运用一部分的相关的知识来解决这个问题叫做智能 agent 这种方式那么还有一种就是比如说我们可以把这个
检索方式其实互联网经济有很大一块就是搜索引擎那么把检索和这种生存合在一起这也是一种解决高可靠性的一种方式那么这一块其实按照这种知识增强的方式走下去我们希望能够把以 ChatGPT 为代表的大模型的这种语言表达能力再补上这个知识的能力的话让它能更好的帮助人类去解决问题从而缓解它的这种混同审理和随机编造的问题对想问一下就是说你看
机器视觉 ImageNet 这批出来以后出来的是人脸识别这个应用场景然后在之前的语音识别就是一个语音的入入就是说 theory 这个应用起来那这一波的生成式 AI 起来以后您觉得哪些应用场景会率先落地或者哪些你现在看上去技术上还没有达到能够商用的或者说实用的阶段呢
非常好的问题这一波的技术发展仍然是在不断的发展中那么我觉得对于产业的从业者来讲第一方面确实要拥抱这个机会我们去发掘利用当前的这个生存式人工智能技术能解决的一些产业的实际问题那么这个实际的产业问题蛮多的包括现在可能已经有一些比较成功的一些落地的比如在这个文案写作在文化娱乐在这个信息服务
刚才提到的这个图片的生成对吧比如现在我们公司里面做的这些图案也可以用人工智能方式来生成包括现在已经能够协助做一些这个视频的生成比如说未来可能只要你给一个脚本
布置一些角色之后就能带着这个脚本和角色来生成一段小视频或者是小的这个电影创作就这方面不断地会有机会出来我觉得可以和这个技术的发展一起来探索它的落地的场景从比较成熟的能够解决问题的场景先入手慢慢地再随着技术的发展去解决越来越有挑战性的问题
视频的理解或者图像的理解是不是还不行这一块其实也有非常大的进展比如说我们说视觉的理解原来都是打标签比如说 ImageNet 它其实是分了一千类把我们人经常能看到的物体它分了一千类别
它其实它的输出是类别标签但是我们有了类别标签之后其实我们希望机器解决的可能更多的是说它在环境中比如说我们机器人对吧它在家庭环境中或者在工业场景中或者无人驾驶它在街道场景中它可能
并不仅仅只是要一个分类的标签那么这一波人工智能我刚才提到了它代表着利用语言的认知智能上的一个改变之后其实对机器视觉也有很大的推动作用因为我们可以从视觉出发直接让它输出一个用自然语言描述的一个接口或者是一段代码那么这一段接口的代码它可能就能直接驱动比如说你的脚踏板
你的这个机器人的机械手你的这个逐步运动你的手部运动它可以驱动出一些代码指令出来了因为我们这个 agent 现在比较火的 agent 的概念它们之间的接口就是机器代码那机器代码也是符号序列那么我们可以用生成式人工智能这种以 transformer 为基础的这个大模型它可以生成出这样的一个这样的代码那这个代码就可以驱动下面其他的各种各样的一个下游的不管是
无人驾驶的东西还是说我的机械臂它能完成更多的任务了这块其实是对视觉也可以说是多模态的一个进步多模态我有语音我有图像进行理解进行感知和理解之后它能生成一段原表达的东西不管是我们说的代码语言还是说我们的自然语言
然后他可以传递给下一个环节下一个环节能接下去再去解决一个问题那么这就串起来了所以他能解决问题的能力一下就突发所以视觉不仅仅只是一个打标签的过程它是把语言理解和视觉合在一起的这个过程
因为这两天正好看新闻说特斯拉不是在国内要建数据中心要提供无人驾驶 FSD 的服务但是另外一方面一直说有一个叫马斯克时间就是说两年之后会商用一直要马斯克时间但马斯克那个东西从来
没有按照他说的两年一般就是永远实现不了情况但您怎么看就是说这一波深圳市人工智能起来以后无人驾驶真的会有突破吗因为讲无人驾驶这件事情我记得每年那时候去 CES 一直说三年之后会实现三年之后会实现到现在其实一直是卡在 level 2.9 这样您觉得会有变化吗
我是乐观主义者我觉得会有变化其实在这一块赫斯拉他的时间点其实我觉得可能也是代表着大家对技术的一个预期点就是觉得可能过两年他会有个这样的进步但可能解决这样一个点之后他可能又会有新的问题出现所以就像刚才说的人工智能他
不断地在眼睛中那有关对无人驾驶的改变其实我看到国外像特斯拉还有其他的像 Google 他们也在做这样的技术就是把这个机器视觉和机器语言结合在一起比如说我们的无人驾驶中我们看到一个场景这个场景可能会有这个斑马线对吧可能有红绿灯可能有行人过往那么这些其实最后是要用语言描述出来的
我刚才说这一波加拿大 GPT 爆发的它的重要点就是它对语言的运用能力增强我们人类区别于动物的很大的这个能力就是我们会用语言有了语言之后我们可以组织很多事情比如说我能组织团队我用语言可以把我的任务比如说交给乐平总然后乐平总知道这个语言描述任务之后你可以再分发下去那么对于无人驾驶也是一样它们
看到一个产品之后它会生成一段他们叫 code 就是符号 token sequence 那么这个 token sequence 它可以传递给其他的模块比如说你可以传递给这个自动模块传递给这个决策模块甚至有可能会再传递给这个其他的地方然后其他地方再接到这样的一个符号序列因为符号序列进入然后经过智能处理在符号序列输出这样的话就可以形成一个
能够串联起来解决复杂问题的一个能力了原来的这个无人驾驶它其实是打标签或者是说在一个图像上画出一个框说这是一个人是一个斑马线了也要发框现在不是了现在是有点端对端的感觉就是我直接输入的是我的对世界的感知出来的信号可能是比如说激光雷达的或者是这种视觉雷达的对吧我感知进来我输出的可能就是决策了就是决策了
角色又可以传递到下一个模块下一个模块拿了角色它可以做判断再生成下一步的序列就像我们人要完成一个很复杂的事情的话它其实是一步一步的去完成的所以用语言作为中间的桥梁这个就很重要就把所有的复杂的事情能够分步着去分解出来我看 GPT 有比较什么 Auto GPT 有点这个感觉这个是在正确的方向上包括现在
很多的这种所谓的代理有了各种各样的代理比如说我可能有专门负责做文本摘要的代理我有专门生成图案的代理我有专门做语言翻译的代理对吧我有专门是写一段代码去调用一个数据库的代理那么这些代理合在一起中间的它的连接器它的这个交啊就是符号序列这个 token sequence 就很厉害我们能够从一个 token 出发经过智能的理解生成另外一个 token sequence 那所有都能串在一起了
就我的理解的 autoGPTautoGPT 会产生一个命令但是外面又有个超脑就是有很大的数据库存储的信息然后 GPT 产生一个命令去控制世界上比方说到网上去搜索一个东西回来反馈回来以后再去跟数据库对比对比出来产生一个新的决策然后再去控制世界是不是我理解的 autoGPT 就是这个东西是吧
是的那比如说的很好比如说我要填一个税务报表我可能要去网上去查一下有关税务的这个规章制度如果是用 GBT 来讲他可能会做一个网页的浏览浏览之后他会从里面载出一些东西我看完之后我就形成我要填的东西是什么
然后我会去再打开一个网页比如说我们税务的填报了一个网页我告诉他我把这些填进去就另外一个代理把他执行填进去就行了就是说我们平时在电脑上所有的操作都可以转化成一个个的指令去完成的
你说你可能会做一些描述的比如你要买一个披萨饼你想买厚的还是买薄的你想要什么样的添加对吧你是想海鲜的还是牛肉的对吧描述一下你就告诉 GPG 它首先要分解你这个需求分解完需求之后它可能会去往上调调完之后它可能那边会给你一些反馈然后你基于这个反馈你可能会再形成一个最终的调用指令你就发给它了
直接下单就比如说我们的就是一个 web 互联网的应用一样他直接就下单下单那边就接收了我懂了比方说我要半小时内能够送到的最便宜的海鲜披萨然后我就给这个指令他就会自己到网上去搜周围有比方说清华园边上有多少卖披萨的店看披萨店价格比较哪个最便宜
对然后他就会自动生存一个下单的指令然后从我的支付宝里面把钱扣掉可以过半小时就自己会送如果这个 A9 你授予他从你这个支付宝扣钱的权限的话那就可以扣掉了因为在数字世界中所有的东西都是代码你
你如果能够把一串代码按照你的需求转化成另外一串代码那所有的事情都能完成了就在前几周吧有一个非常有趣的研究就是说我们现在是个虚拟世界已经做得很好了对吧就跟我们打游戏一样我们可以在虚拟世界里面建一个医院建一个菜市场建一个超市比如说我是一个发电厂的员工对吧我可能是一个公司办理我可能是税务局的人他可能建几个角色每个角色就相当于是一个 agent 就是一个
然后这个智能体它有自己描述的一些接口就比如说我们人对吧我有一些接口能做这个接口就是我输入一个东西通过这个接口能产生另外一个影响对世界产生一个影响那它受了大概 10 个 agent 刚才说有医生有发电厂的这个工人等等然后它就去可以进行整个世界的模拟了相当于在数字世界中一个模仿真实生活的一个模拟所有的事情都能去发生你生病了你可以看病嗯
对 真正的东西这个就为未来在真实世界中去做更加全面的自动化打下了一个基础因为我们可能就要在模拟世界先做一下然后再去做真实世界的一些事情然后也可以在这里分析一些多人互动过程中它可能会产生哪些问题
这也是相关的问题我们看科幻电影看太多一直说机器人会跟我们人类共存就是说您刚才也讲这个世界 Agent 这个世界是不是将来我们会跟就是我们生活的有一部分同时会变成机器人这样的一个角色我不知道您怎么看因为我蛮吃惊的事情我昨天玩了一下小米狗小米铁弹 2 就是说两个感受一个感受是比以前轻很多我可以抱起来
那第二感受呢是比方说我给他一个手势他会跟着我走然后我给他一个手势让他退回去他会退回去就是说已经可以学习我的动作过去呢控制他就是很明确的一个指令比方说你往前走往后走跳个舞什么东西但这次我很吃惊的事情就是说
它慢慢它学习了人的一些你和狗是平时怎么玩的比方说让它往左转往右转遭遭过来它就真的会过来了这个东西不是一个确定的动作它会学的我不知道将来人和机器首先机器人这个事情怎么看第二就是说将来我们跟机器是怎么会要共存的机器狗
我们在学术界上把它叫做巨声智能就是它不再是我们电脑上的一个软件你通过跟 ChinaGPT 你在我们闷宽送一道文字它能够回答出来我们说的机器狗它是一个实在的一个物体它能够跟你有真实世界中的互动我们其实跟 ChinaGPT 我们那是数字世界我们叫赛博空间
跟物理狗是真实世界的互动我觉得有一天人类真的会在真实世界中能够形成很好的有巨声智能的物体的互动的目前从时间点来看现在我们其实在数字世界先实现了这样的互动
你想恰到 GBT 因为它不是个物体但是你可以想象它就是在电脑另外一端的一个人你跟他可以做任何的互动你问他任何问题他都能回答你问他数学问题你问他文学问题对吧你问他物理问题甚至你问他一些常识问题旅游问题经济问题他都能回答这一块的发展我觉得是刚刚起步未来会衍生到在现实世界中的这种机器人的走路
寻常百姓人家那么我稍微再解释一下为什么是在数字世界先有突破因为数字世界的数据是这些年来得到最大积累的我们互联网刚才说了 GDPT 是用 T 级别的数据迅速来的因为我们互联网的这个广泛的普及然后有高质量的文本都存在我们的
数字世界中我们可以用这样的高质量的文本去训练我们的大模型然后训练出来就可以在数字世界跟我们交互了那当然有双利的因素导致这个数字世界中我们这个人工智能率先突破那么在未来像铁蛋这样的机器人我觉得会演化了很快
你像我们的 CHILE GPT 是因为建了我们很多的文本数据那么在未来像铁蛋这样的机器人有可能是政治数据界中给他喂数据也有可能是像我刚才说的在一个虚拟的环境中可以做 3D 建模嗯
给它进行互动比如说可以有手势可以让它有一些脚步的或者是手部的运动甚至跟人可能会有一些语言的交流未来的狗会超越现在咱们普通的狗它不但会像狗一样会走路会哇哇叫可能还能说话呢
那就很厉害了这个我们可以畅想一下未来这个巨神智能的给人类带来一个好处这个巨神世界的这个数据的产业会变得难一点但是按照我们现在的算力的这个发展对吧摩尔定律就是会每十年就 1.5 倍这样的发展下去的话我们的这个数据积累越来越多
得到了训练越来越充分的话那么也可能会像 CHILDGBT 一样像是一个接近于通用人工智能这种巨神智能出现了所以这块我觉得发展速度会很快我们也希望这块最后做出来之后能够给人类是一个很好的陪伴或者是伴侣或者是帮助人去解决一些繁重的繁琐的甚至可能有危险性的一些事情让人去享受更高级的服务我觉得这可能是未来
刚才我们交流了很多我这边也有一些感兴趣的问题就是从这个投资界来看的话这一波人工智能现在发展到的一个地步对这个整个商业发展有什么影响然后现在商业发展的这个人工智能相关的板块它的全貌 概貌是什么样的相关的产业机会在哪里乐斌总能分享一下我来讲一下我们的初期的看法吧
我们是这么看这个人工智能大概分成四段其实我们是把它和 4G 的时候去类比如果你记得 4G 的时候大约是有最早是有设备商然后呢就是那时候是中兴华为盖设备第二波呢是手机
那时候叫中华库联现在是华米 OV 就是四家手机厂商第三个是那时候是运营商就是提供平台的运营商中移动中联通中电信最后是做服务的这时候就腾讯阿里如果把它类比成现在的人工智能发展就是第一波是提供所谓的芯片的卖水人英伟达做芯片提供算力的人基础设施建设的人
第二波其实是因为它的算法或者应用要落地我们来看是不是有可能是像巨声智能像机器人或者是不是像电动车或者说就是现在的手机或者说现在讲有一些耳机比方说我们现在我最近用的很多像讯飞耳机这样的一些产品就第二环节是硬件第三环节就是大模型的公司现在有一批国内的初创的大模型的公司在做
最后一个环节应用那我们从 4G 的时候的一个发展的经验来看呢最先受益的人不是最大受益的人就 4G 那时候受益最大的其实是你看腾讯阿里就是完全颠覆了比方说腾讯是把短信变成微信那现在微信我们变成每天如果大家看手机用时间要用到三个小时四个小时就是对
然后电商比方说电商把传统的百货店都给颠覆掉现在来看就是说最先受益的肯定是芯片那就是说我们蛮吃惊的就是 20 年以来第一次一家芯片公司的股价过 1 万亿美金就上一次是 2000 年英特尔过 1 万亿美金这一次是英伟达几个月前过 1 万亿美金因为芯片公司本身的货值很低它很难过 1 万亿美金
那第二批就是说就是大模型在哪些硬件上会落地现在市场上一级市场或者二级市场最热的就是或者梦想最大的就是那个马斯克讲的巨声智能就是讲机器人但实际上有可能会十年后二十年之后但短期来看有可能比方说我自己用的最多的不是做广告就是讯飞的耳机或者说讯飞的那个智能本这些产品你会看到现在
一下子大家用的蛮多的那就是包括手机大家现在非常期待下一代的苹果手机我们什么时候能够有大模型出来那这是第二类那第三个就是那个大模型的公司了但大模型公司现在看上去很多都是一些慢慢有点和云计算结合在一起很多互联网公司在做
那第四个就应用那应用我们觉得很多的就是也要请教您的意见我们看到现在美术的彩编包括脚本包括就办公类的文字的生成包括图片的生成这些都就是说很多应用刚刚开始吧长期来看会有很多那个应用会出来这个我是觉得主要是这四个环节吧
就是从一级市场二级市场来看大家比较关注或者说这个商业界资金支持愿意投资比较热的这些有哪些机会和产业我觉得两块一块就是大模型公司就是我们讲现在叫百模大战据统计好像前不完全统计咱们说 130 几家
大模型公司就是说几乎每天有一家大模型公司成立吧我觉得中国和美国好像说据说是我们看到情况是不一样美国是已经就基本上那几家巨头做了就其他的初创公司基本上都在做应用在中国呢现在就是百模大战这个状态应该从一二月份吧春节之后拆 GPD 一火以后国内就大量的大模型公司成立就是大家那个训练之后呢提供对话聊天类的服务就大模型公司是一类现在非常火
第二类就是算力算力也因为大家的芯片对中国出口会有一些限制中国的现在讲卡脖子的环节非常重要的就是高性能计算的芯片通用 GPU 叫 GPGPU 的芯片或者是做推理类的没有那么复杂就两类一类是训练类的芯片应用我感觉不管是从一级市场二级市场应该是未来来看我觉得是应用类的要起来第二个就是也是
人工智能的就开始落地最近我们觉得还比较看好的就是边缘人工智能就当人工智能实际上有一些作用了那开始在比方说在手机或者是在机器人这些开始落地的时候会有一些应用场景所以说我们一级上半年很热的是第一个环节就是芯片和第三个环节就是大模型但往后看我觉得是第二个环节就是一个是 AI 的硬件和一个是应用场景我觉得是这样
我讲说那就是说怎么看就是说因为大家现在市场对员工智能很热但实际上落地的时候有什么问题就是我们碰到其实一直很难解决的问题会现在有没有看到
我们在理想和当下之间永远是要找一个比较好的平衡点从刚才畅想的远景来看我们确实觉得这是一个划时代的机遇可能会让当前社会的所有的人都从中收益也能够在其中找到自己的机会我觉得这是一个非常好的时代
从另外一方面来讲所有技术的眼镜都有它的这个自身的成长规律技术也不是一天成熟的也意味着我们在探讨商业化探讨产业化落地的时候也要遵循产业的技术发展的规律所以这里面也需要我们去冷静的思考脚踏实际的去推动这个事情的发展总的来说就是说我有个公式也是比较务实的一点的建议就是
我们的技术的成熟度在结合上我们运用这个技术的成本边界决定了我们当下最好的解决方案就是技术不一定是像我们想象的那样完美地解决了这个问题就像我们刚才提到的可能还存在着可靠性的不足可能会存在着这些成本比较高的
比如说因为现在的人工智能在很多层面上还是需要有数据标注指导积极积极学习那么这些标注的成本都都是成本那么我们还需要有高算力来进行模型的训练那么这也是算力的成本这里面都会叠加到刚才所畅想的产业落地或者实际应用中的一个成本
这些成本和技术层次度结合在一起才是我们现在对于企业来讲比较现实的能够找到的最好的解决方案当然这个解决方案会解决一定的问题我们看到技术进步所带来的好处我们会有收益在这个收益下我们可能会驱动我们去解决更困难的问题咱们一步步的循环才能更好地解决人工智能长期发展的问题
因为它不是一蹴而就的,而是需要有更多的社会各方吧,比较冷静,然后全面的推动才能有更好的发展未来的。对人工智能有着长期愿景的同学们应该在这块他是会坚持做下来,
我们也举一些例子比如说在 2000 年泡沫破裂的时候可能一些做人工智能相关的比如说机器视觉语音识别自然语言处理相关的同学可能不好找工作因为那时候产业界并没有特别好的落地机会所以工作岗位也少经过这方面专业训练的同学可能他就转行了甚至去进入公务员
有点像放弃了他在这个研究生阶段从事的这个专业方向有点可惜其实这个机会转迅即来到十年其实对我们人的职业发展来讲十年其实是并不长因为比如说我们假设三十岁博士毕业的话那你能工作到五十或者六十岁你有三十年的时间所以如果在这个十年的时间里面你能够坚持下来其实会带来一个新的非常大的机会所以在
2010 年进入深度学习之后一下就发现从事深度学习人才就成为稀缺金华毕业的这种研究生基本上很多都可能是一百万年轻起兴的对很多企业就是论文答辩还没结束就开始抢人了那么一直到现在其实在这块的人才需求还是挺万顺有抱负的同学希望能坚持下来做一些事情
对您也提到了就就业的事情想问一下就是您说您是 03 年开始就从事这个人际对话的工作就您带着学生比方说从 03 年到现在比方说那时候是大家是一般会去什么样的企业
差不多 20 年时间大家是怎么变化的变化还是蛮明显的这个在学校里面因为学科的设置它会设定一些方向比如说这个我们这边在电子系叫做信号信息处理其实就是人工智能这个方向当然也可能有通信对吧还有一些偏物理的这种物理观电子这些方向对那么同学的选择总的来说因为在年轻的时候还是比较现实一点嗯
所以春江水浪压线之哪个产业人才居家大开的工资高他就会去哪个行业所以在 2000 年之前基本上互联网是比较重要的一个就业的聚集地很高兴后来互联网泡沫破裂所以就有些同学就选择去一些国企因为国企那时候还能解决户口就是户口的话对一些同学来讲还是有吸引力的
再后来就是咱们国内的像 BAT 这样的巨型的互联网企业做得越来越好同学们的就业也从原来的专注在外企因为在 2000 年以前外企还是咱们国家的产业中还是占有比较多的位置像这个 RBM 英特尔
甚至包括在更早以前的新门子诺基亚这些但是慢慢的国内的互联网企业发展的越来越好一波一波的从最早的新浪搜狐后来的 BAT 再到现在的滴滴包括今日头条也吸引了很多的同学去那边就业其实这方面有一个自己的发展趋势同学在就业的时候可能会受这个趋势的影响对呀
我就要说因为您从学者角度给科研从业者有什么建议就是说那么大的一个人工智能的大潮就是说比方说我是学电子的或者是学计算机的我是应该去做芯片呢还是应该去做大模型呢还是应该去做应用呢或者说有什么给大家的一些建议吗好啊这里面我觉得是个
跨时代的一个机遇作为 AI 的从业者我们也感到非常兴奋具体到每个人的职业的选择我觉得还是遵循类型因为不同的人他上场的东西可能不一样人工智能它的魅力也在于它其实是有一个非常丰富的生态需要大家去一起共建有需要做基础研究的包括我们直到今天有些在基础层面上还很难回答的问题你可以去做基础研究
有一些这个动手能力比较强的你可以做软件方面的一些应用开发或者你去做一些动手能力比较强像我们现在不管是逐步的还是首步的这些操作上其实还有很大的改善的空间另外很多对这个商业比较敏感的朋友们也可以去做在基于现有的这个人工智能技术上的一些商业领域的一些模式的创新和探索
对于每个人来讲找到自己感兴趣的适合的方向拥抱这个变革我觉得是最好的建议每个人都有自己的独特的地方可以去在这个变革中去享受到变革所带来的红利不一定是千篇一律的就多做一件事情百花齐花更符合人工智能未来的发展的这个预测然后每个人都能从中受益每个人都能在其中去施展自己的才感
就是说 CHI GPT 对教育会有什么样的变化或者从您角度来看我们应该将来学什么东西什么样的技能我们是觉得应该多学一点什么样的技能其实可以教给机器做我不知道您这个怎么看因为人工智能的发展肯定会带来社会工作内容会被逐渐的自动化甚至被机器协作来完成那么在教育方面让同学们去具备创建性的解决问题的能力这可能是在学校里面希望最主要能够传递给同学的
就稍微分享一下就是在清华这边我们的教育理念分三个层次第一个层次叫做价值塑造第二个叫能力培养第三个才叫知识传说所以大家可以看到知识传说其实是放在最末尾的就是你通过记忆通过背诵你记下来的东西在一些专业领域比如说我们电子的制造电容电阻电流电压然后信号处里面有复利叶变化咱们学人工智能的制造有一些这个
模型算法这个其实是比较固定的知识第一位其实是价值塑造在价值塑造方面我觉得给人的改变是说能让他真正的感受到用愿景驱动去做事情的力量同学们包括家长选专业都喜欢说我找一个好的工作所谓好的工作用比较世俗的眼光来看就是高薪工作压力也没那么大
但是其实咱们在社会上从业的这么多年包括家长们也都知道找到一份自己能够全身投入的工作然后自己在这方面也有天赋或者说有一些兴趣能够持续地做下去做下去之后能得到一些回报换句话说就是让同学们认识到自己在哪些方面愿意做下去这其实是大学教育的一方面这个不是说是专业知识的技艺就能带来的所以我们在未来要更加加强这方面的
引导不仅仅只是学好一门课更多的有长远的发展想到未来自己能够在远景驱动下面去有自己的职业发展这样的话把个人的发展短期利益和长期的发展能够结合起来这样的人可以走得更好一点这叫教职塑造那么能力培养其实就是刚才所提到的有创建性的去解决问题这个进入清华的同学英文试考下来也会分出第一名和最后一名的啊
我们发现就是考在前面的同学他的灵活性就比较好有悟性有活性就是他对问题的理解不是始终应备因为老师出题都会分档次的有些题目是你课本上抄就能够得到正确答案的有些可能需要你有创造性的去把这个思路找出来然后去解决甚至要做一些组合式或者是多个知识点的灵魂运用你才能解决一个问题
在这方面其实就是要讲究学习上的融会贯通的能力还有把知识点能够结合的能力还有这个看问题能看它的本质的能力把这些能力结合起来可能是我们说的这个能力培养的很重要的一部分那最后才是知识的传说对
今天聊了很多东西包括聊了教育怎么样职业包括 AI 的技术发展包括巨声机器人还有一些长期的趋势非常感谢欧教授今天的分享我们下次再见谢谢乐平总