欢迎大家收听科技慢慢拍就在今年的 3 月 5 号美国计算机协会也就是 ACM 宣布了 2024 年的图灵奖授予了两位人工智能专家他们的名字就是安德鲁·巴托和理查德·萨顿主要表彰的是他们在强化学习方面的一些成就
在颁奖仪式上 ACM 的主席也提到巴托和萨顿他们在工作方面展示了很多我们在一些应用领域长期面临的一些挑战从认知科学心理学到神经科学的研究都激发了强化学习的发展强化学习也为 AI 的一些其他领域的重要发展奠定了基础并且让我们能够更深入的了解到人类大脑的工作原理
大家可能都或多或少的听说过强化学习也就是 reinforcement learning 这个算法的名称虽然它不如像 deep learning 或者是 machine learning 这样的名词这么熟悉而且巴托和萨顿这两位的名字也不像杰弗辛顿或者杨立坤那么为人所熟知但是大家肯定也都或多或少的听过或者了解过关于强化学习的一些理念和方法
大家最早听说强化学习可能都是因为 AlphaGo 最早 AlphaGo 就是因为通过强化学习的方式赢得了整个在围棋界的一个最大的突破他打败了当时的世界围棋冠军李士实而且后来他还通过自我这种模拟训练的方式形成了 AlphaZero 又达到了一个更高的水平他背后的主要方法就是强化学习
不过在后来很长的一段时间里面在业界的专家大家都认为强化学习这种方法只适用于在游戏这种规则比较固定胜负清晰比较局限性的这样的一个比赛或者游戏中而在其他领域的范围可能应用的并不是很多毕竟我们游戏的里面的过程和现实生活中的这种工作生活还是有比较大的差别的
可是近来大家听到强化学习应该是从这次 ChatGPT 的突破开始因为 OpenAI 背后其实聘请了很多的这样的
人跟他进行一个对话并给出一些反馈的意见 chatGPT 会根据这些人类的反馈进行不断的一个优化逐渐学会了更加接近于人类的这样的一个对话的方式所以这种技术就被称作基于人类反馈的强化学习就是 RLHF 所以这又是一次让强化学习走进了人们的视野
当在 2024 年底 25 年初很多人认为 Transform 模型由于数据和算力的原因走到我们所谓的 Scalning Law 的尽头的时候它又是强化起去的出现帮助大模型取得了一系列的突破不管是 OpenAI 的 O1 和 O3 或者是包括国内的 DeepSeq 其实都是
开发出了一种新型的强化学习的方法让机器人在学习过程中不需要再进行人为的干预而就能通过自己的不断的尝试去解决一些数学题逐步学会更加复杂的一些推理的过程这些系统就被称为了具有推理能力的这样的 AI 的大模型系统其实这次大模型的诞生背后有一个很大的功臣就是刚才我们谈到的
土林奖的得主萨顿在 2019 年发表了他一篇著名的经典的文章《苦涩的教训》这篇文章后来也被 OpenAI 的员工被认为是一种圣经或者是必读的文章其中最主要的就是体现了他们关于 Skelling Law 的一个信仰的基础这也促成了后来 GPT 大模型的诞生
因为在这之前很多我们大家认为的原来的 AI 系统都是需要靠人给去投位知识这样的方法让 AI 去总结和分析的
但是我们现在通过强化学习或者通过不断的扩展大家让 AI 去自己学习后来才逐步发现了说我们只要不断的累加算力然后加大模型的数量然后不需要再给它为一定的知识而是让它自己去阅读就可以得到很强大的一个能力所以我们也摆脱了说我们要用人类的知识为大模型供给的这样的一种方法
其实大家很多人都在谈到 scaling law 到底有没有误解这个词汇其实当年萨顿在《古色的教训》中这篇文章中谈到的就是说有两个技术他认为是在计算上是可以被无限的缩放的也就是 scaling 其中一个是学习另外一个就是搜索学习就是不断的去学习知识或信息搜索就是找到对应的办法
为什么说学习和搜索是可以缩放的呢因为我们可以看到学习不管是深度学习的神经网络 Transformer 还是强化学习其实背后都是可累积的它建过的素材或者信息越多能力就会越强就好像我们人类在不断的运动中形成这种肌肉记忆也类似卡尼曼提出的这种系统一的这种方式快速的反应
同时我们可以发现他在学习数学的时候他可以再去学习物理生物而且这些知识之间还不太会相互抵消而且越多越好所以学习是具有这种 scaling 的这种可缩放的这种特征的另外一个方面就是搜索从计算的角度来看通过搜索可以在空间上维度上寻求一种更多的可能性在深度上也尽可能的对每种场景进行
尽可能的一些模拟那这样的合起来呢就像是我们谈到的系统二的这种思维方式主要你题目如果够复杂的话那你想的时间越长那可能也会绝境于更好的答案所以我们可以看到学习是这种积累已知的内容而搜索是去探寻位置学习呢是通过预训练的方式好像我们
我们人一样把这种功夫花在日常而搜索更像是对于一个某一个新发生的事情我们要进行推理和分析所以本质上这两件事情都是符合 scaling law 的投入越多就收获越大而且这两件事情都需要亲身的参与而不能交给其他人
所以当我们看到对于预训练学习这件事情我们出现了 Skyling Law 的平静的时候搜索或者我们讲的探索或者推理这件事情就提供了一个新的发展空间所以即使我们今天看到的像 Deep Seeking OEO1 这样的一个大模型的盛行其实背后依然印证了关于当年萨顿提出的这样的一个理论的基础
其实萨顿的认知基础正是来源于他和巴托在强化学习领域的很多的研究成果所以今天的节目我们就要回顾强化学习的整个的发展的历史从外界来看一项科技成果似乎总是突然出现的但实际上这都是由无数的前人逐步的搭建的阶梯以及多个学科互相启发互相促进所铸就的
一个技术或者科学的突破并非凭空而来的主要是通过不同的学科之间的交融和连接经过多代演进后才得以形成今天的这样的一个局面正是今天这样的一种方式让强化学习得以发扬光大而且让巴托和萨顿取得了如此卓越的成就
因为今天我们的故事时间跨度也比较长人物也比较多时程关系也复杂理论理论之间的关系也很多但是我们的讲故事总不能像抖音解说电影那种方式讲给大家比如说这个男人叫小帅等等
我们还是要以对这些科学家报以足够的尊重所以当大家对名字可能有一些混淆或者记不清的时候他可以在 show notes 里面看我们所放的关系图和人的名称以及相关的一些内容这样的话便于大家充分理解今天节目中谈到的这些人和他们的研究成果那好让我们开始我们的强化学习之旅
强化学习最早的这种概念可以追溯到 19 世纪末来自于美国心理学家埃德华·桑德克他是 1874 年出生的他的各职业生涯几乎都是在哥伦比亚大学读过的桑德克主要代表的是行为主义和学习研究的这样的一个理论的基础并且他在临床实验中首次使用了这样动物作为一种研究的方向
他能够基于动物的一些研究来创建新的理论的学习的基础他的博士论文主要叫动物智能动物联想过程的实验研究这是在心理学中第一篇以非人类为研究对象的论文
桑黛克对于动物是否能够通过模仿或观察学习这样的方式非常感兴趣他为了测试所以桑黛克创造了一个叫做南梯箱的一个箱子这个箱子有一扇门门上通过一个链接连接到绳子的一个重物这个绳子穿过一个滑轮再连接到门上
这样的话通过这种箱子内部的一个杠杆如果你搬动杠杆的话这个门是可以打开的然后他就把猫放在了这个箱子里所以当猫按下杠杆或者拉动杠杆的时候连接到这个门的绳子就会导致这个门打开猫就可以逃出来而且在逃出来之后还可以获得食物的奖励
桑黛克通过对猫的观察他发现猫一开始其实不知道怎么打开门的经过了不断很多次的试错学习之后他发现在猫意外的能够踩到一次开关之后他以后就能很快在实验中按下开关通过观察和记录猫的逃脱时间以及逃脱的过程桑黛克就能够绘制出动物在每次逃脱之后所需要的一个时间从而得到了一条学习曲线
动物一开始是很难逃脱的但它在领悟了这种打开的方式之后它其实每次逃脱就会变得越来越快直到最后去一种比较平稳所以逃脱速度形成的这种 S 形式的这种学习曲线给它在行为学上这种研究带来了很大的这种成就所以我们可以看到今天大家可能都觉得这种事情是习以为常可
可是在当时这就是一种创新的方法这种学习方法后来也被叫做试错法他同时桑泰克还提出了一种法则叫做效果法则 law of effect
桑泰克呢在一开始认为人们可能对于失败这种不满或者惩罚或者是和成功所带来的这种满足感几乎是同等重要的但是呢后来他不断的在实验中发现其实奖励比惩罚会更加有效的能够激励人
所以呢他还强调说如果我们获得成功的时候那奖励应该在人们取得成功之后要立即兑现这样才会让人们深刻的能够体会到获得成功的这样的一个满足感和喜悦啊今天这些事情大家听起来是非常正常啊比如说我们对于嗯
孩子这种在生活中或者学习中成功的一种鼓励这种兑现可能比你的这种批评教育会更加有效但是在当时来说这还是一个非常创新的一种发现所以我们看到最早的像类似强化学习这种理念是出现在心理学领域的
后来进入 20 世纪我们可以看到这种想法从心理学组部走向了神经学的领域所以出现了另外一位神经心理学家叫做唐纳德·赫布他主要的研究成果是研究黑猩猩的情感和学习能力的整个的这样的一套生物学习的规则
在 1949 年赫布出版了行为组织学这样的一本书赫布其中总结了里面的一些内容这种学习方法也被称为赫布法则他认为如果两个神经元细胞总是能够被同时激活的话它们之间就会出现某种联系同时激活的这种概率越高它们之间的关联程度也会越高
所以赫布学习法则是最古老的也是被认为最简单的一种神经网络学习的规则赫布学习本质上也是一种无监督的学习机制时间再往后走其实我们可以看到真正的突破就是出现在神经生理学的这样一个领域在 1943 年的伊利诺伊大学的神经生理学家
沃伦·麦卡洛克和芝加哥大学的数学家沃尔特·皮茨发表了一项非常有影响力的研究他们认为大脑中的每个神经元都是一个简单的数字处理器而整个大脑相互之间关联起来就像是一台特殊的计算机这段故事我们其实在我们的第 42 期节目中也有过介绍
有了心理学神经科学等等方面的一些理论认证之后其中还需要数学家来帮忙所以在 1950 年代俄罗斯的数学家安德烈马尔科夫他就提出了马尔科夫决策过程就是 MDP 它其实本质上是诞生于运筹学它主要用来描述在不确定的环境下如何做出最佳决策的这样的一个方式
当然了这种方法的后来在生态学经济学医疗保健人工智能等等很多领域都获得认可那这个主要是就是来自于这个马尔科夫的这个研究 MDP 呢就是我们讲的马尔科夫决策过程他主要是在不同的状态下啊
可以选择合适的动作然后来对未来的这种成功获得奖励的一种最大化而且每一步的决策都可以依赖于当前的这种状态而不是完全的去考虑过去的历史所以这样的话 MDP 就成为了后来强化学习的从运筹学或者数学方面的一个理论的基础
那我们可以看到前面的主要就是从心理学神经科学数学等等方面在 19 世纪末 20 世纪初的很多的发现而他最终如何又走向了计算机领域以及人工智能领域来构成了整个强化学习的这样的一个基础呢那这个故事呢我们首先要从人工智能的先驱也就是艾伦图林讲起啊
那计算机之父也是人工智能之父的艾伦图灵在战后也就是 1947 年的一场伦敦数学学会的演讲中他就提到说我们想要是一台可以从经验中不断学习的这样的一个机器因为那个时候刚刚有计算机大家对于什么是人工智能非常的模糊其实那是有史以来第一次关于人工智能的公开的演讲其实那也是强化学习最终哲学的一个理论的根基
很遗憾的是图灵英年早逝后来他也没有看到在这个领域的任何的进展和突破
到了 1954 年也就是图灵在去世的前一年在麻省理工学院工作的贝尔蒙特法利和韦斯利克拉克他们成功的运行了第一个小型的模拟神经网络的计算机它其中包含了能够训练多个多如 128 个神经元的这样的网络来识别一些简单的模式这是最早的我们可以看到神经网络的一个出现
而强化学习萌芽的诞生要到第一代人工智能从业者的出现那也就是大家都所熟知的第一波的浪潮就是 1956 年的著名的达特茅斯会议这个故事我们在第 41 期节目中也有介绍过就在达特茅斯会议之前科学家香农作为是这个活动的发起者之一的一名科学家他在 51 年就制造过一台叫做特丘斯它是使用继电器组装的一种老鼠的迷宫
它有一个表面是各种纸板打成的迷宫组成一个有机电器组装的机械老鼠可以在其中的移动表面迷宫的下面有传感器可以跟踪这种机械老鼠在迷宫中的路径经过多次的试验或者是尝试之后最终老鼠能够学习到这种通过迷宫的一种最短的路径
而香农的一名学生也是在他实验室工作的马文明斯基当然大家都知道马文明斯基也是那次会议的重要的组织者他其实明斯基在本科期间就受到刚才我们说的麦卡洛克和皮茨关于人工视频源的论文的启发同时他基于他老师香农的老鼠迷宫的游戏他也希望可以建造出一台类似的可以用于学习的这样的电子机器
在 1951 年他从美国空军获得了一笔研究经费和普林斯顿大学的物理学研究生迪安·埃德蒙茨在一起建造了一台模拟老鼠在迷宫中奔跑的机器所以这台机器叫做 SNARK 它其实是索尼基神经模拟强化计算机的首字母的一种缩写
它也是一种基于操作性条件反射作用的这样的强化学习这就类似于我们在节目一开始谈到桑黛克的那种动物的这种条件反射的这样的原理
那 Stack 主要是由迷宫般的这种阀门小型电机齿和各种连接的神经元的电线所组成的这组随机的网络连接网络包含 40 个突出每个突出含 6 个真空管和一个存储器用于保存信号的进入输入以及信号能够输出在另外一个突出中
有一个从 0 到 1 的这种概率的旋钮显示了这种信号的传播的概率当概率信号通过的时候电容器就会记住这个功能并且接通离合器此时当操作员按下按钮的时候就会给这台机器一些奖励随后在各种连接之上它就建立了一种事件的因果关系
在这样的一个迷宫的网络中这个机器实际上就扮演了刚才我们谈到的相同的一种老鼠的角色它的所有行动都可以整个网络通过网络来进行一个监控
而且在这个实验中也可以引入多只老鼠让它们相互的作用每当模拟老鼠达到目标的时候电路就会加强经过各种各样的随机尝试之后老鼠开始在逻辑上类似进一种思考最后通过一种强化的方式获得了这样一个正确的选择而且其他的老鼠也可以选择以前老鼠曾经走过的路径形成了新的一些追随者
这台机器让明斯基也非常感到惊讶,这些老鼠实际上是一种相互交流的方式,最终他们找到了一条非常好的路径,其他的老鼠也会遵循这条路径。所以在 1954 年,明斯基在普林斯顿的博士论文的题目叫做神经模拟强化系统的理论,及其在大脑模型问题上的应用。
请注意明思基在论文或者机器上都使用了所谓的强化就是 reinforcement 这个词但是那个时候还没有使用到 learning 这个词我们看到他用的还是大多是计算器或者系统这样的一个名词
随后呢在达特茂斯会议上提出了著名的七个问题其中之一呢就有机器的自我学习这个问题就是说真正拥有智能的机器是否可以执行自我完善的学习活动这就是著名的七个问题之一啊
但是随着以神经网络为代表的这种连接学派的被打倒那后来呢基于专家系统这种符号学派的大行其道那这个好像这个问题就让机器自我学习这个问题好像就被放到了一边当时的大量的资金都投入了军方和政府的人工智能项目中
但是在这过程中可能还是有一些探索者或者是科学家希望在智能学习这个领域能够做出一些不同的事情所以他们还仍然走了一个不同的路径而在这个路径中可能真正的用于科学或者真实的项目会比较困难所以大家都把精力投入到了游戏这个领域上希望在游戏中能够看看这种方法能不能更好地发挥它的作用
1949 年亚瑟·萨米尔加入了 IBM 公司他刚开始就是在第一台商业计算机也就是 IBM701 上开始进行研究工作他在上面研发了第一个跳棋程序这个程序主要是希望能够体现当时计算机硬件和软件方面的一些惊人的进步这个程序其实甚至让 IBM 的股票在一夜之间上升了 15 个点
由于它当时可用的计算机的内存是非常有限的所以萨米尔就为此实现了一种叫做称作 Alpha Beta 的减值的技术萨米尔没有搜索每条路径的这种计算的成功的这样的一种方式而开发了一种基于任意时刻的这种棋盘位置的一种评分的函数这个函数希望在每一步棋中都去衡量双方获胜的机会
这种技术有效的可以提高了这种棋盘的这种局面的这种深度搜索的一个能力后来三比二还根据专业比赛的结果来设置一些评估的奖励函数这也就是形成了最早的所谓的 TD learning 就是时间差分的这种学习的一种机制
而且他还让程序与他自己进行了很多场的这种比赛和对弈他把这种结果也作为让跳棋程序学习的一种方式所以这款跳棋的程序自然就成为了世界上最早最成功的能够完成自学习的计算机程序
而几乎就在同一时间美国的应用数学家理查德·贝尔曼在 1953 年提出了一种方程叫做动态规划方程也被称作贝尔曼方程它就提供了最优质的函数的递归关系其中一个关键部分就和刚才我们谈到的萨米尔调整权重的方法非常相似所以相当于萨米尔的跳级程序在数学理论方面也得到了验证
因为他们一个是在计算机领域另外一个是在数学领域而他们双方几乎都不知道对方的研究成果所以贝尔曼方程相当于是从数学方面为强化学习奠定了基础而刚刚讲的萨米尔是在应用计算机应用的角度为强化学习提供了一种研究的方法和理论基础
而这些理论科学的发现其实也不只是只有他们两位其实在大洋彼岸的英国有一位人工智能研究家叫做唐南德米奇他其实和图灵一样当时在布莱切利庄园从事密码破译的一些培训的工作他其实很大程度上也受到了图灵的启发所以在战后的 1961 年他开发了一种
非计算机的方式但是类似能够通过学习来实现景字游戏的这样的一个程序哈那当时呢米奇呢是用大约 304 个火柴盒来实现了他这个程序哈每个火柴盒都代表一个独特的棋盘的状态每个火柴盒里装满了彩色的珠子每个珠子呢代表这个棋盘状态下的不同的走法那
那机器呢通过选择珠子来决定下一步的这个行动并且呢在游戏结束后呢通过的这种输赢的结果来调整珠子的数量如果赢得比赛呢就会增加这个成功路径上的珠子的数量相当于是种奖励策略如果输掉比赛呢就会减少在失败路径上的珠子的数量相当于减少了错误策略的选择虽然它没有明确的数学的公式但这种学习方法非常类似于强化学习中的策略更新
和奖励机制可能正是有这些前人在各种各样游戏方面的探索所以呢后人也是率先希望把强化学习这种理念呢应用于需要计算机突破的最后一款七类游戏那就是围棋这才后面有了 deep mindalpha go 的这样的重大的一个突破啊
接下来我们就要回到我们真正故事的主角就是我们图灵讲的两位主角就是安德鲁巴托和利查德萨顿安德鲁巴托是 1948 年生人到今天已经 77 岁了他是在密歇根大学上的学他最早主修的是海军的建筑与工程但是他上了大学之后他发现自己对数学非常感兴趣所以后来就转学了数学专业
在他 22 岁就是 1970 年那年他获得了数学的学士学位而在之前他就读到过麦卡洛克和皮茨关于神经网络方面的书以及他了解到了美国计算机神经科学家麦克尔阿比布的一些著作这些著作让他看到了他所学习的数学神经科学所研究的大脑和计算机之间某种结合的可能性
他对使用计算机和数学来模拟大脑的这种工作方式就产生了很大的兴趣于是就想到是否可以把这些不同的学科之间联系起来做一些研究这就让他非常的兴奋于是他就开始阅读当时能够找到的各种关于类似控制论的这样的一些内容以及当时一些非常有限的关于神经网络的一些知识
所以之后他就申请了密歇根大学的研究生项目加入了专注于细胞自动机的一个研究小组他所在的研究团队主要就是专注于研究细胞自动机和遗传算法当时的约翰·霍兰德就是研究小组的主要成员
霍兰德后来就成为复杂系统方法的主要研究的一个奠基人特别是他开发了一串算法和学习分类器的这样的系统那个时候霍兰德研究成果他也对安德鲁巴托产生了巨大的影响 5 年之后也就是 1975 年因为他关于细胞自动机的论文获得了计算机科学的博士学位
霍兰德在毕业之后呢 1977 年他就申请成为了马萨诸塞大学阿默斯特分校的博士后加入了刚才我们谈到的迈克尔阿比布所创立的系统神经科学控制中心那其中呢这个阿比布呢也是大有来头的哈
我们最早其实大家了解人工智能故事的话大家知道最早人工智能分为三个流派也就是以逻辑学为代表的符号学派以仿生学为代表的连接学派和以控制论为代表的行为学派而当时其实最著名的其实是以控制论为代表的行为学派而诺伯特·维纳就是控制论的发明者
他在学术界声望非常显赫所以他在二战后他希望利用他的名声能够帮助马生理学院招募一大批由神经心理学和神经系统数学和生物学研究的一个团队组成这种认知科学研究团队这其中就包括我们之前提到的沃伦麦卡洛克和沃尔特皮茨
而刚才我们谈到的迈克尔阿比布其实就是作为他的当时一个学生也在这个小组中工作阿比布后来就成为著名的计算神经科学家
他最主要的研究成果就是从生物神经系统中汲取了很多灵感推动了神经计算的这样的方法并且也提出了镜像神经元的计算模型他这种方法为后来的机器人学语言学的起源提供了很多的理论的框架
并且构造了感知动作控制而不就是 perceptionaction cycle 的这样的一个理论直接影响了后面的机器人和人工智能的各种产业
所以这样故事就串上了最早的人工智能的一大流派维纳希望成立这样的一个小组刚才我们谈到的皮茨就是最早的小组的研究成员而刚才我们谈到的阿比布是维纳的学生正好也参加过小组的工作后来他就设立了自己的系统神经科学控制中心
系统神经控制中心迎来了刚才我们谈到的约翰·霍兰德他开发了遗传算法和学习分类器系统再往后实验室就迎来了巴托巴托算是给人工智能的流派蓄上了香火
最早巴托主要参加了一个叫做目标寻找组件的这样一个受其他人拨款的这样的一个项目他主要希望能够探索一些在神经网络的一些可行性而这个项目主要受到了哈利克劳普的一些启发和帮助克劳普他其实提出的叫做享乐神经元的一种假说
他认为神经元是一个个体的降落主义努力的通过最大的局部的这种快乐化而减小最小的这种局部化的痛苦他大脑里边的这种神经元细胞就像一个个的追求降落而躲避痛苦的小生命
也就是说人类的智慧其实源自于无数个细胞的这种最大化的快乐这种的不断的探索他为此还写了一本书叫做《享乐神经元记忆学习和智能的理论》和一些相关的文章所以他就创建了这个项目并且雇用刚才我们传说的巴托作为博士后来参与他这个项目来评估一下他这个想法在科学层面的一些实践的意义
而就在这时候比巴托小 10 岁的理查德·萨顿在 1978 年从斯坦福大学获得了心理学的学士学位随后也就到了马萨诸塞大学的阿末斯特分校攻读计算机科学的硕士学位他的导师就是安特鲁·巴托于是萨顿作为研究生也顺理成章地加入了这个研究项目
正是从那个项目开始巴托和萨顿就开始了他们关于强化学习这种理论研究的探索最早我们可以看到像维纳那个时候的控制论它基本是基于一些模式识别和监督学习它本身缺乏和外界的一些互动也没有达到类似基于目标的这种学习的能力
我们大家都所知道的像机器学习领域非常著名的监督学习和非监督式学习监督学习就是类似从人类的这种标记的实例中进行学习在这种情况下的目标的输出和实际的输出之间的一种差异然后用于更新整个这种学习系统的参数所以这通常需要一个样本的梯度的向量
而无监督学习则是希望从无标记的例子中进行一个学习其实最终像一种统计学的一种剧烈的一个分析而强化学习是第三种学习方式它是基于评估而不是刚才我们谈到的误差向量的一种训练的方式它主要的方式就是增加奖励的数量并减少惩罚的数量强化学习的非常一个独特的方式就是说
他在训练的时候不需要及时的看到学习系统的输出而是通过长期的学习之后在非常长期的后面的一个效果来去看整个的最终的结果到底是如何的通俗点说强化学习就是让机器通过类似人类这种讲诚机制来不断的学习做事情表现好就给奖励如果表现不好就给惩罚这样通过不断的尝试不断的反馈
机器逐步就掌握了如何能够做出一个更好决定的一种方法
一开始其实有很多的研究者都是朝向我们所谓的强化学习的方向不过我们大家了解历史了这大家都知道在第二次的整个人工智能的浪潮中大家都转向了像模式学习像专家系统这样利用统计结果来获得结果的这样一个方式其实我们看到后来的像机器学习深度学习通过反向传播算法它相当于也是一个所谓瞬间学习就是顺态学习的这种方式而不是一种
向人类一种持续学习的一个方式而巴托和萨顿一直就关注于向人类学习的这种强化学习的方式在早期的论文中萨顿和研究生彼得布劳尔在 1981 年就提出了强化学习关联记忆
他们都受到了刚才我们谈到的约翰·霍兰德的遗传算法的影响但其实他们也不像遗传算法那样而是他们希望构建一个联想网络这个系统必须通过尝试一些事情来获得评估以获得最终的结果
所以他们创建了一个关联性的搜索网络这就像一个神经网络其中的神经元有噪声但是它可以推动在里面去搜索并且他们添加了一个预测器因为上下文只是随机输入的当上下文变化时奖励就会根据上下文的不同而产生变化这实际上就变成了一个控制问题
这样就使得演员评论家架构, actor-critic architecture 这样的强化学习的算法的出现巴托和萨顿又使用马尔可夫决策过程,就刚才我们谈到的 MDP 作为数学基础解释了在随机的环境中像这种算法实体是如何做出决策的并且每个行动之后如何获得奖励的这样一个过程
萨顿还对之前开发了跳起的 Samuel 的 TD Learning 的方法进行了改变发明了 TD Lambda 的算法目的主要是为了解决和缓解强化学习中延迟奖励的信用分配的问题大家理论归理论就是大家积累了这么多的理论的学习最后强化学习的验证可能还是要回到游戏过程中
在 IBM 托马斯沃森研究中心工作的加拉尔德特萨罗在 1992 年就开发了一款叫做 TD Gamma 的计算机西洋双路棋游戏其实它的名称就在于刚才我们谈到的 TD Lambda 算法
如果三秒耳的跳棋游戏还只是说具有一定的专业的水平能够和人类进行一个简单的对弈那么这款计算机西洋双路棋基本上可以达到人类专家的最好的水平甚至它可以表现得更好它通过多次模拟游戏学习而形成了一个蒙特卡罗系统这样就克服了所谓的叫做维度诅咒
什么是唯独诅咒唯独诅咒其实是强化学习和动态规划中一个经典的问题
他就讲的是当我们各种状态和动作空间那种不同的维度的增加那计算的复杂度和数据的需求呢也会呈现指数级的增长大家知道我们下棋的时候有不同的分支有不同的探索那这个复杂度就会非常高那就会导致说我们如果用传统的方法来去处理这种复杂的问题的话就会非常的计算量非常的大如果按照传统的搜索方法你比如像这种西洋双路棋的状态就可以达到 10 到 20 米次的这样的一个状态的数量
而采用了新的这种神经网络的这种方法可以采用近似的价值函数 TD 算法不需要预先知道有所有的状态的这种转移概率或者奖励函数而是通过逐步更新的方式让神经网络逐步逼近真实的价值函数
TT Lambda 可以通过自己对异的生成的这种训练数据而不需要像一开始获得完整的这样的各种样本的数据的这样一个方式进行探索所以这种方法就避免了像在这种比较复杂的棋类里面对高位空间的这种便利的这种计算的复杂度
除了计算机和游戏方面以外巴托沃萨顿在生物学上还得到了一定的验证当时就产生了叫做预测误差 TD error 的这样的一个说法当时就主要谈的是多巴胺系统的行为和刚才他们所研究的 TD 学习之间在数学形式上的一种高度的契合也就是巴托沃萨顿他们的强化学习理论在生物学上得到了验证
那所谓的这种预测误差 TD error 就表示期望与现实之间的差距如果实现回报比预测的这种更好就是一种正误差则需要增加对当前状态的评估如果表现的更差也就是负误差那需要就要降低估值这种机制使得智能体能够逐步的在一个学习环境中获得某种奖励模式
而类似我们人类的多巴胺就是这种类似的模式因为大家知道多巴胺是一种神经调解剂之一它是由英国神经科学家舒尔茨所研究的多巴胺的细胞的活动突发最初就是一种奖励机制所出发的但随着不断的尝试如果你有一个预测性的刺激那么多巴胺的这种神经元的反应就会获得这样的一个奖励
这和我们刚才谈到的强化学习奖励模式非常的相似正是基于前人的这些研究成果包括我们最早提到的心理学神经科学生物学数学计算机科学人工智能学等等各方面的研究他们二人就构造了一个新的学科也就是强化学习
强化学习和监督学习和无监督学习并成为三大学习范式之一强化学习和监督学习不同的就在于他们不需要提供这种已经标记好的输入输出对也不需要明确的纠正刺激的优化的动作相反的他们只需要在一些未知的领域进行一个探索利用各种已有的知识之间找到平衡来为目标获得最大化的一种
奖励的这种积累这样的一种方式所以我们可以看到他们俩后来在强化学习理论的基础上编写了一本著名的著作叫做《强化学习导论》这本书是在 1998 年出版的这本书也被视为这个理论的奠基之作目前很多高校主要的学习教材也是采用了这本书也成为了很多后续研究者的一个重要的参考书籍所以他们一举奠定了整个强化学习的理论基础
前面这段故事就是强化学习理论基础的整个的形成的过程以及多学态学科的这样的一个融合的过程在形成这样理论之后巴托和萨顿二人其实相当就分开了巴托在马萨书泰大学建立了一个实验室持续来发展他的强化学习的理念而萨顿则返回到了加拿大
他在 2000 年左右到了加拿大的阿尔伯塔大学成为了一名计算机教授来继续这一学科的研究萨顿其中的一个学生最比较有名的就要属大卫希尔福了但是希尔福他是在 1976 年出生的他从 2004 年开始在加拿大的阿尔伯塔大学开始学习强化学习的这种博士学位他也成为了萨顿手下的博士生
他在学校的时候就开发了一个 9 乘 9 的用于大师级的围棋对战的这样围棋的算法使用的就是强化学习那在 2009 年毕业之后呢他全职加入了哈萨比斯的 deep mind 的公司哈
到了 2013 年左右 DeepMind 的公司就开始使用这种深度强化学习的方法在一些游戏中取得了很大的一个成果当时他们就构造了一些所谓的计算机的玩家他们叫做深度的 Q 网络 DQN 当时就在很多游戏中取得了非常好的成绩
那这个希尔福呢就接着领导了阿尔法购项目哈这个大家所熟知的就是说后来打败了世界围棋冠军的这个阿尔法购能够非常好的下围棋而且能够有这种神之一手的这样的一个表现
这样就让业内大家人都了解了这种强化学习结合了深度学习的这样的一个能力所以形成了一个新的概念叫做深度强化学习 Deep reinforcement learning 很多人就开始逐步在这个方面进行了一个探索目前 SERV 仍然是谷歌 DM1 的首席研究科学家
而另一位和强化学习比较远远的人工智能专家就当属温达了温达当年也是深受萨顿和巴托的强化学习的影响温达 1976 年出生他的老师是 Michael Ewan 乔丹从 1980 年代开始乔丹开始将地归神经网络作为认知模型的进行开发在机器学习界推广了贝耶斯网络
而这个接力棒呢就到了温达手里他在 2003 年就提出了逆强化学习也就是 IRLInverse Reinforcement Learning 在逆强化学习中呢他并没有给定特定的奖励函数而奖励函数呢是根据专家的一些观察行为来推荐给出的他主要这种方法呢就是希望能够从专家的行为来去推导一些奖励函数
这样使得强化学习适用于那种无以值奖励的情况相当于是扩大了强化学习的整个应用范围
那吴文达的第一位博士生叫做皮特阿贝尔他主要研究的方向也是机器人学习和模仿学习并且在深度强化学习方面有很多前沿的研究而这个阿贝尔的学生呢叫做谢尔盖列文他的主要研究方向呢也是偏向于强化学习的领域他包括自主的机器人和车辆以及计算机视觉和图形学他
他的研究开发了整个端到端的训练的深度神经网络的一些策略的算法这些策略就涵盖了感知和控制逆强化学习可扩展的一些算法深度强化学习等算法这样的话他可以研究让一些机器人通过我们所谓的试错学习能够控制一些复杂的任务操作物体和行走这样的话在我们今天看到的很多机器人领域也得到了拓展
而阿贝尔的另一名学生叫做约翰·舒尔曼他的这个研究的方向就是深度强化学习里面的优化策略他后来也成为 OpenAI 的联合创始人之一所以影响了 RHF 的诞生
所以这样一路来我们可以看到深度学习的整个发展的路径从巴托最早的马萨诸塞大学到了萨顿的阿尔伯塔大学后边以及到了伍文达整个带领的后边他的学生的斯坦福大学这样的他的
流派或者他的学习内容在不断的延伸从强化学习到深度强化学习到逆强化学习以及各种的专家策略等等的所以才形成了今天这个强化学习的整个的一整套的理论的一个基础啊
大家再了解到生化学就像我们节目一开始谈到的大模型的爆发推动了 RHF 的这样的新的训练方法的一个诞生我们从 2022 年开始 OpenAI 在 GPT3.5 和 4 中都采用了 RHF 的这样的一个方法使得大模型的行为更能够符合人类的预期从而提升了大模型的整个安全度和可用性如今萨顿仍然活跃在人工智能研究的第一线在 2023 年的 9 月份
萨顿所领导的阿尔伯塔机器智能研究所宣布希望开发一个新的 AGI 的项目就是通用人工智能的项目
近年来萨顿也发表了很多的文章比如他在最近的一篇关于去中心化神经网络的演讲中他就谈到了当前人工智能发展的一些平静的问题他也阐述了目前深度学习的一些局段性包括这种灾难性的遗忘可塑性的丧失以及模型坍塌等等的问题他认为这已经成为了深度学习继续前进的一些障碍
他认为强化学习仍然是一种非常自然的一种学习方式因为强化学习能够促进与世界的互动你如果做了对的事情他就会获得好的收集这样的话总会有一个目标来影响着整个模型的前进
而现在的许多人工智能系统是没有目标的比如说像类似大语言模型它只是根据预训练的数据来形成结果虽然它们表现的像人类一样但是它们的内心中呢没有目标也没有对真与假的判断而在这些内容看起来呢萨顿认为是非常重要的一个事情啊
并且他认为未来的发展方向就是持续的学习所以他就提出了去中心化的神经网络的全新的概念他其中主要的思想就是希望赋予每个神经元能够独立的目标比如向其他神经元传递有效的信息保持自身的活跃度等等
那通过保持一些骨干神经元的稳定性的同时呢他也鼓励这些边缘的神经元进行积极的探索从而增强整个网络的这种适用性和持续的学习能力最终呢实现一种动态的平衡
另外呢他还分享了他的创新的算法叫做持续反向传播也就是每轮反向传播的过程中的这个算法都会依据神经元的活跃度选择性的重新初始化的部分神经元来提高这个模型的整个灵活性和学习的效果相当于是为持续学习领域又开辟了一条新的路径哈
如果从人工智能学科延伸到整个的经济和社会领域萨顿认为其实我们的经济的运转就在于说不同的人有不同的目标大家才能结合起来运转的很好人们基本是通过这种各种交易来实现各自的目标同时可以为整个系统做出贡献
我们的经济其实并不依赖于所有人的一个所谓的共同目标而是依赖于每个人通过合作来实现各自的目标这种去中心化的合作方式也是人类能够在历史上获得最大成功的一种表现合作是我们最大成功的基础那也是现在人类通过合作来创造财富我们构造建筑建立了社会关系等等的这样的一个良性的基础
而合作的失败的表现就是像我们以前看到的像战争腐败的最主要的一个根源
所以他认为人类是一种合作类型的类人员我们的合作能力就超越了其他的动物这种合作主要就是通过语言货币等等不同的人类工具来去实现的但是他也知道合作并不是总是那么容易的如果人们选择合作相互之间就必须充分的信赖总有一些人从可能不合作中获得了一些收益比如说我们所谓的骗子或者小偷或者独裁者等等的
所以他也希望我们应该建立一个更好的机构来去促进合作而去惩罚那些不合作的人
总之萨顿的结论认为说人类的繁荣基础就是来自于这种去中心化的合作而合作是最美好的事物的一个源泉我们必须寻找合作的机会支持合作并努力把它变成更加制度化和体系化的一个方式同时也应该希望抵制那些相互不信任非合作或者集中控制的这样的一个状态
那合作是人类互动的核心无论人类之间的互动还是人类与人工智能之间的互动或者是人工智能之间的互动那都应该成为未来我们的一个重要的发展的方向所以呢这就是萨顿心中的强化学习在于人类发展层面的一个应用吧
所以我们可以看到萨顿或者巴托他们都认为强化学习是我们作为人类或者是我们人工智能的一个发展的最核心的一个价值理念那今天我们节目就是从强化学习的历史开始讲起一直到萨顿和巴托的主要的研究成果以及他们后续的一个发展的状态最后到萨顿最新提出的一些想法和思路
好我们今天的节目就到这里如果你有什么想法也请给我们留言也希望你能点赞转发和评论我们下次节目再见
唱一首昨日的歌想让时间停留着人往的尘世间真心的人与几个谁不是谁今生的过客谁的余生注定不蹉跎亲爱的朋友不必过终有梦
天海会再见坐上远去的列车汽笛声将悲伤情绪站台上一阵风吹过一地桥划落想为你
一唱一首昨日的歌想让事流传的真世界真心的谁不是谁今生的过客谁的一生注定不蹉跎亲爱的朋友不必难回再见流着泪唱完了这首歌
在某个冬夜无眠的时刻在某个的时刻