科技慢慢拍的听众们大家好其实从 2023 年 ChatGPT 爆发开始大家就会一直关注一个新的词汇至少我之前是没有太听过的就是 AGI 也就是通用人工智能
到底 AGI 是什么以及它会在什么时候到来我们每次和嘉宾聊的时候都希望能够突出这个话题其实也不只是我们了其实很多做社交媒体的做播客的写公众号的朋友们也经常会谈到这个词所以今天我们就来做一个这样的专题来好好的深入聊一聊到底什么是 AGI 我们未来将如何走向 AGI
今天是节目的第一期我们想换一种新的形式其实我们最近发现人工智能已经杀入了中文播客圈了比如说 Google 的 notebook LR 就推出了支持中文的双人的对谈的播客所以我们也想在这个节目里面尝试一下
所以我们有请 notebook 的两位主播来去完成这样的主题内容当然我在中间也可能会打断他们的讲话做一些补充说明就像以前我们做的 AI 广播剧也好或者 AI 的对话也好这又是一次我们新的尝试好我们有请二位主播
今天咱们聊一个现在特别火的词 AGI 通用人工智能对,通用人工智能你可能听过好多回了尤其是那个 OpenAI 的 Altman 老说这个嗯,媒体专家也都在讨论 AGI 什么时候能实现但问题来了这 AGI 它到底是个啥感觉好像
每个人理解的都不太一样是有点这个感觉定义都模模糊糊的那讨论什么时候实现是不是有点有点太早了
确实先把概念搞清楚很重要我们这收到一些资料就是关于 AGI 的历史定义不同角度的看法今天就想跟你一块把它捋清楚好啊这个概念到底怎么冒出来的跟咱们以前老说的 AI 有啥不一样为啥给它下定义这么难又好像挺重要的没错理解 AGI 确实得先看看它的来历它不是凭空出现的不是的
这个层的出现其实是为了强调一个特定的能力,就是通用性或者说泛化能力。通用性,AGI,Artificial General Intelligence,中间这个 G,General,通用是关键,它就是为了跟那些比较偏科的 AI 区分开。深科的 AI?嗯,就是只能在特定领域做得特别好的那种。
讲到这里我想补充一句大家经常讨论 AI 也就是人工智能经常原来喜欢用代际的这种概念去体现比如什么 1.0 2.0 有点像我们在通讯技术里面使用像 2G 3G 4G 5GG 就是代表带的概念事实上人工智能技术的这种复杂性其实并不是特别的产生这种代际很明显的这种技术跳跃性的变化
它其实更像是一个连续性的一个发展的过程或者是更像一段段的这种脉冲的这样的一个发展的一个过程所以我们在不同时代大家讨论的人工智能有时候概念是不一样的以前我们讨论的人工智能可能是所谓我们今天看到的是弱人工智能或者是后来我们讨论叫强人工智能今天我们又去讨论 AGN
如果从历史角度来看其实不过只是我们这一代人或者这个时间点我们所追求的一个目标到底 AGI 是不是一个终极目标我觉得还真的不是特别的好说
也许我们今天追求的 AGI 在过去几十年以后在不同的专家口中也许它只是一个阶段性的目标所以我们可以看到对于代际的这种概念应该是因人而异而且因时而异的也不好放在一个统一的这种理论框架下去讨论不管怎么样今天的 AGI 已经走上了历史舞台我们今天大家能看到的
未来的希望也就是 AGI 所以我们大家都认为 AGI 会让这个世界变得更加的有趣所以我们会急于这样的方向去探索和发现更多的机会这就好像我们一个刚刚长大的孩子我们刚刚打开了 AGI 的这道门缝就迫不及待的向里张望尽管我们也无法确定里面那个门里面的那个世界是不是我们想去适应的世界但是我们对此依然心存幻想
其实 AGI 这个词最早是一个物理学家叫 Mark Gubrod 在 97 年的一篇讲南米技术的文章里提的物理学家对但真正在 AI 圈子里流行起来得是 2000 年以后了像 Ben GertelSean Legg 他们写书的时候正是用了这个词他们用这个词是想
就是想把自己研究的方向那种追求跨领域学习能触雷旁通的 AI 跟当时主流的比如只擅长下棋啊或者做特定任务的狭义 AI 划清界限哦 明白了所以是为了区分研究方向对 后来通过一些学术会议啊研究社区啊慢慢推广开真正大火还是得等到 XRGPT 出来 Sam Altman 把它定为 OpenAI 的目标之后嗯 这下就加以互小了
这里再补充说明一下刚才主播的发音不太清楚其实是 1997 年的物理学家马克古布鲁德他在一个关于纳米研究的一个杂志期刊中提到了 AGI 这个词
后来沙恩格策和本格策尔他们在写书的时候把 AGM 用作他们的书的名字我们之前也谈到过本格策尔是一个对于 AI 非常乐观的一个领域专家
他在 2009 年格特尔还到访过中国的厦门大学他在演讲的时候也声称通用智能是一种行为他的唯一的要求就是在复杂的环境中能够实现复杂的目标在他看来智力应该是通过事物执行任务的能力来衡量的无论是这个事物是自然的还是人工的比如动物细菌或者计算机程序都可以完成类似目标的话那他们都可以认为是智能的
核心就是强调通用没错是通用不光是指智能有多强那既然是为了跟狭义爱区分开我们真的需要给 AGI 一个特别精确的定义吗
资料里好像有人说你看生物学家也没完全定义生命啊研究不是照样进行这个比喻有点意思这确实是个分歧点有人觉得模糊表没关系研究嘛探索着来但支持要定义的人认为 AGI 跟自然生命不一样
它是咱们要主动去创造的东西人造的对你想要投入多少资源人力物力还有伦理法规这些问题这倒是所以有个相对清晰的目标或者说定义能帮大家就是研究者开发者还有决策者朝着一个大方向使劲同一目标对还有利于资源分配别投错地方了制定政策也得有个依据对吧怎么管理风险怎么促进发展最后公众也更容易理解和接受嗯
嗯这么说来给他下个定义或者至少努力去定义还是挺有必要的是的不然哥说个话可能最后做出来的东西跟预想的差很远
那要理解通用咱们最好先看看不同用途上我们熟悉的那些 AI 比如最早赢了卡斯帕洛夫的深蓝还有赢了李适时的 AlphaGo 他们肯定算侠义 AI 了吧完全正确深蓝 AlphaGo 都是典型的侠义 AI 他们在自己的领域比如国际棋围棋那绝对是顶尖高手远超人类但是你让 AlphaGo 去写个报告或者做个菜那他
那它就完全不行了它的技能没法迁移明白了就是除了那个特定领域它就啥也不会了就是这个意思还有像 IBM 的 Watson 问答系统虽然看起来好像懂挺多但遇到一些尝试性问题可能就卡克了要把它用到新领域再重新训练还得人工调很多东西也是有限制的对
甚至以前大家说的强人工智能或者超级智能像尼克博斯·独洛木书里写的那种如果它的目标设定的非常单一比如就让它无限的造回形针嗯?造回形针?对即使它能力超强能把整个地球资源都用来造回形针它本质上还是狭义的因为它不理解整个世界不理解人类的价值它只有一个死目标哦这就是那个回形针灾难的假设是的也叫麦达斯国王问题
或者魔法师的学徒困境目标定歪了能力越强后果可能越糟听起来有点吓人所以你看单纯沿着侠义 AI 的路子走下去好像有逻辑上的困境很难实现那种真正灵活全面的像人一样的智能发展 AGI 就成了必然的选择明白了
那既然 AGI 这么重要定义又这么难现在都有哪些尝试呢资料里提了好几种不同的思路对定义 AGI 确实是个大挑战到现在也没有一个所有人都点头认可的完美定义主要有这么几种视角吧嗯
第一种是从经济价值出发比如 OpenAI 早期提过一个说法就是能在最具经济价值的工作中超越人类的系统这个听起来很实在有点是关注能力而且好像比较容易衡量但缺点也明显它忽略了那些不太好用钱衡量的价值比如艺术创造力啊情商啊这些而且能不能实现经济价值还跟你怎么部署它
有关系有道理还有别的吗还有就是经典的图灵测试这个你肯定听过就是让机器模仿人对话看能不能骗过测试者对头据说现在有些大模型像 GPT4.5 什么的在实验里已经能骗过不少人但是批评的人就说这只是模仿的像是行为模仿
不代表他真的在思考或者真的理解了对话的内容嗯会说话不等于有脑子就是这个人关于图灵测试这里呢再补充两句
大家可能都知道 1950 年由图灵在他的机械计算与智能这本书中引入了这个实验他也被称之为叫做模仿游戏他讲的是不同的参与者会参与到这个游戏过程中如果人和机器都在背后进行一些对问题的回答而那个参与者却不能判断到底是人还是机器回答那他可以认为机器是有智能的或者说是可以思考的当然这是非常早期的一种
判断方式了最近加州大学圣地亚哥分校的两位研究人员做了一份研究他一共测试了 4 个代语言模型包括 ELISA GPT 的 4O 和 LAMAN 的 3.1 和 GPT 的 4.5
测试者一共要完成 8 轮的对话一共有 284 位参与者参与到测试过程中最后发现参与者判断 GPT4.5 为人类的概率为 73%而 LAMA3.1 为 56 其他两个模型要低很多所以通过这个测试认为是说现在 GPT4.5 通过了所谓的突灵测试
但是很多人认为如果 AI 通过图灵测试它并不是体现的 AI 的智能而更多的体现的是 AI 的社交能力或者欺骗人类的能力所以这也是为什么很多人反对图灵测试的一个原因
然后还有一种思路是追求类人能力像蒂普曼的哈萨比斯就比较倾向于这个他说 AGI 应该是能够展现人类所拥有的任何认知能力的系统像人一样聪明问题就在这儿像人不一定等于智能而且人跟人的能力差别也很大以谁为标准呢这也对再有就是搞一个任务清单
比如马克思他们搞过一个赌约,列了一堆复杂的任务,看懂一部电影写个影评,独立编写复杂软件,做出新的科学发现等等。如果 AI 能完成里面大部分,就算达到 AGI 了。这个听起来具体多了。优点是具体,可操作。缺点是,AI 可能会针对这些任务去应试,死记应备或者用特殊技巧完成,不代表真有通用能力。
而且选哪些任务标准是啥还是挺主观的刚才主播里面谈到的马克思其实他念错了其实是心理学家加里马库斯
他主要是作为一个 AI 的怀疑论者他在 2024 年的 12 月 30 号和对 AGI 持有乐观态度的 MilesBrundtach 然后两个人打了一个赌也就是说他们说一个 AGI 系统在 2027 年是不是能够完成他们列出的十项任务中的八项如果八项能够达成那么就认为是 Miles 赢了
如果是不能完成的就是马克思营了他们对这十项任务还专门做了表述这十项任务包括四个普通成年人就可以完成的任务两个是需要人类专家才能完成的任务另外四个是需要具有比较熟悉的比较有挑战的这样的人才能完成的任务我们今天也看一看这十个任务到底大概是什么大家判断一下在所谓的行业专家的眼里到底什么是真正能够去实现 AGM
第一个就是能够观看一部从没有看过的主流电影而他不能去看评论他能够根据这个电影的情节辗转知道何时效并且能够在不被透露任何剧透的情况下能够进行总结并能够回答比如这部电影的角色是谁他们的冲突和动机是什么这些事情是如何变化的整个电影的情节转折到底是什么等等的一些类的问题
这是第一个任务那第二个任务是说他能够阅读一本新的他没有看过的一个这样的一个主流的小说并且能够回答有关的情节角色冲突和动机等等的问题当然他跟刚才那个问题类似这个只是图书刚才那个是看电影而且他能够超越字面的内容以普通人能够理解的方式来对这篇小说进行分析
第三就是能够撰写引人入胜的简短的传记或者扑告而不明显的表现出这种幻觉不可脱离实际等等的这样一个特性第四它可以在几分钟或者几小时内学习并掌握几乎任何新视频游戏的一些基础知识并且在游戏的虚拟世界中能够解决各种各样的难题这个就像我们人去学习一个新的电子游戏一样
这是第四项第五项是说撰写有说服力的法律文件里面不会包含任何虚构的任何的案例和内容
第 6 项是可靠的从自然语言规范或者非专业的用户的互动中能够构建超过 1 万行的无错误的代码而不是简简单单的将现有代码库里的代码拼装在一起其实考验的是 AI 对于编码能力的一个要求第 7 项的任务是说在几乎没有人类的参与的情况下能够撰写普利策奖级别的书籍或者包括小说或者非小说这个是一个专家级的挑战
第八项也是说在几乎没有人类参与的情况下能够撰写奥斯卡级别的剧本第九项也是说能够提出具有范式转变的诺贝尔级别的科学的发现这就是科学的理论研究了第十项是从数学文献中随机选取三个自然语言写的证明并将其转化为适合符号验证的符号形式
所以这个后面几个来说都是一个专家或者像低于难度的这样的一个内容所以这就是讲到通过任务来去表述 AGM 能力的这种一个定义方式
感觉每种定义都有它的道理,也都有它的局限。可不是吗?甚至有人,比如 Anthropic 的 CEO,干脆就反对用 AGI 这个词。哦?为什么?他觉得 AGI 这个标签太模糊了,有点被滥用。智能更像是一个逐渐发展的过程,而不是一个咔嚓,一向就达到的节点。有点像超级 computer 这个词,标准一直在变。嗯。
有点道理不是一个零和一的问题而是一个连续的光谱对可以这么理解那既然直接定义终点那么难有没有什么办法能衡量一下我们现在大概走到哪一步了资料里好像提到了分级的概念是的这是一种更务实或者说更动态的思路不只是
不止盯着终点也看看路上的风景我们到了哪个阶段怎么分的呢目前比较受关注的有两种主流的分级框架一个是 Google DeepMind2024 年提出的他们主要是根据 AI 的能力和通用性分了五个界别从 Level 1 新星能力比没技能的人类还弱到 Level 2 圣人大概能达到 50%熟练成年的水平现在
现在很多大模型差不多就在这个阶段附近晃悠 Level 2 我们现在在这附近对然后是 Level 3 专家能达到 90%熟练成年人 Level 4 大师达到 99%最高 Level 5 超人类就全面超越了这个分级还挺直观的那另一个呢另一个是 OpenAI 年中 2024 年提出来的他们的分级更侧重于 AI 和人类协作的方式以及功能实现
也分了五级哦 测重点不一样对 L1 是聊天 robot 主要就是对话 L2 是推理者能帮你解决问题 L3 是智能体不仅能思考还能代表你采取行动 L4 是创新者能协助人类进行创造性工作最高 L5 是组织者
甚至能帮你组织协调复杂的工作这个听起来更像是 AI 能扮演的角色或者工具的进化可以这么看这两种分级都提供了一个动态的视角让我们能大概评估一下我们距离不同阶段的 AGI 或者说不同能力的 AI 还有多远明白了所以今天咱们聊下来感觉清晰多了这个 AGI 核心就是通用性是那种跨领域学习和适应的能力
对,这是它跟以前那些偏科 AI 最大的不同。虽然给它下个完美的定义很难,但去定义它,讨论它还是非常有必要的,关系到方向、资源和未来。没错。而现在这些分级框架提供了一个更实际的衡量进展的方式。是的。
理解 AGI 可能更重要的是理解我们到底希望它具备什么样的能力,以及它会怎么一步一步发展起来,这些定义和分级更像是路标帮我们看清方向。
听到这里我们再总结一下关于 AGI 的定义前两种方式一个是 OpenAI 的方式另外一个是哈萨比斯的方式 OpenAI 讲的它是说能够带来经济效益而哈萨比斯说达到人的能力这两种定义听起来更加抽象或者宽泛一些从科学角度好像没那么严谨第三种是通过马库斯的赌注也就是说所谓十个任务里完成八个它是通过具体的任务也就是说
到时候 AGI 能达到什么样的水平来去衡量我们是否达到 AGI 的能力最后一种相对来说比较客观或者是我们今天大家常常使用的通过类似自动驾驶汽车这样 5G 分类的方式来去表达到底什么是 AGI 虽然我们可以看到 DeepMind 和 OpenAI 的分类方式不太一样但是各自大家也绘制了各自的路径
也许你听了这么久对这个定义的结果并不是特别满意但是这就是 AGI 目前的一个定义的现实情况
这里其实可以留给你一个问题让你继续思考一下哦什么问题居然 AGI 的核心是通用而我们目前唯一了解的现成的通用智能就是我们人类自己对那么未来的 AGI 它一定需要像人吗还是说它可能会以一种我们现在完全想象不到的方式来实现所谓的通用智能甚至超越它
这个问题确实值得好好想一想 AGI 到底会不会是我们熟悉的样子
好我们第一次和 notebook 的 LM 的两位主播进行合作两位主播表现的还是不错的基本上表达了我们想要表达的主要的内容当然我也做了很多的补充和说明今天的节目就到这里我们下一期节目将会围绕着刚才两位主播里面谈到的最后一个话题就是关于 AGI 到底要不要向人的问题我们再做第二期节目
希望大家到时候收听那如果您对我们的节目感兴趣也希望您能够评论订阅和转发好我们下期再见人们都说人生像烟花般灿烂抓紧快活别去捉摸多自然
别太纠结太敏感越是敏感越是难堪怎么办时间是海运往是船哪里才是我彼岸给我一本人间指南
让我找回方向感
這時代有太多選擇太少安全感沒事幫單 僅僅偏單追不完用無聊打發就無了麻煩冒上麻煩保持忙碌保持忙碌多荒誕時間是海 慾望是船你才是我彼岸
让我找回方向感让我找回方向感