大家好,欢迎收听走进强化学习播客系列,我是小爱。大家好,我是小 T,很高兴再次和大家见面。上次我们聊了强化学习的基本概念,用训练小狗的例子让大家初步了解了这种学习方式。今天我们是不是要继续深入一点点?是的,今天我们要聊一个在强化学习中非常核心又很有意思的概念,叫做探索与利用。
探索与利用吗听起来像是在探险一样能先给我们的朋友们简单解释一下这是啥意思吗当然可以我们可以把它想象成你周末出去玩你会怎么选择呢比如我想吃好吃的我会先看看大众点评
找评价高的餐厅或者问问朋友有没有推荐这就是一个典型的利用行为你已经知道哪些餐厅评价好所以你会选择这些地方这就是利用你已有的信息和经验以求达到最佳结果明白了
那探索呢?探索就是你可能会想,哎,这家新开的餐厅看起来不错,或者朋友推荐了一条新的美食街,你想去试试看,你并不确定它是不是真的好吃,但是你愿意去尝试去获取新的信息。所以探索是为了发现未知的好东西而利用,是为了最大化已知的收益。非常正确,在强化学习里,智能体也会面临同样的抉择。
它需要不断的在探索和利用之间找到平衡就像我们生活中一样不能只吃老地方也要尝试新事物那在强化学习中为什么既要探索又要利用呢这就回到我们上次说的强化学习的目标是让智能体学习到最好的策略如果它只利用已知的经验那么它可能永远都会错过更好的选择比如小狗如果只学会坐下拿零食它可能永远不知道原来翻个身也能得到更多零食
所以探索是为了找到更好的零食可以这么理解探索是为了寻找更大的回报而利用是为了确保当前回报的稳定但一味的探索也可能会浪费时间因为它会不断尝试不一定好的选择哇 感觉这里面有点像风险与回报的平衡是的 这个平衡点非常重要我们来举一个更贴近咱们生活的例子你平时喜欢玩游戏吗我偶尔会玩一些比如跳跳轮或者解谜游戏
假设你在玩一个闯关类的游戏每一关都有很多条路可以走如果你一直选择你走过那条路你肯定能通关但是你可能永远都不知道原来还有一条更快的路可以到达终点或者隐藏着宝藏
这就是一个很好的问题如果我们要训练一个游戏 AI 让他学习如何玩游戏我们就要让他在游戏的过程中不断地探索不同的路线他一开始可能乱走但通过游戏
感觉很像我们学习的过程一开始什么都不懂
就到处尝试慢慢的就找到了最适合自己的学习方法你总结的非常到位在强化学习中控制探索与利用的程度是一个非常重要的技术我们一般会用一些算法来实现这个平衡算法听起来有点难可以稍微解释一下吗别担心我们不讲复杂的数学公式你可以简单的把它想象成一个调节按钮可以控制 AI 到底是多探索一点还是多利用一点
如果按钮调到多探索 AI 就会更频繁的尝试新的路线如果按钮调到多利用 AI 就会更倾向于走他已经知道的最佳路线那这个按钮应该怎么调才好呢这就是强化学习中的一个难点没有一个统一的答案这取决于具体的任务一般来说我们会在学习的早期阶段让 AI 更多的探索以获取足够多的经验
在学习的后期我们会逐渐减少探索让 AI 更多的利用已知的经验以达到最佳的效果就像我们一开始学习一个新东西会比较频繁的试错等到我们慢慢熟练后就会更多的运用已经掌握的技巧你总结的非常好那我们现在来做一个小小的互动你觉得在生活中还有哪些地方体现了探索与利用的这种平衡呢
我想想比如说我们选课的时候我们会利用学长学姐的经验选择评价好的课程但是可能也会想尝试一些自己感兴趣的新课程这算是一种探索吧很棒的例子还有吗还有比如我们平时选择学习方法的时候也会尝试不同的方法找到最适合自己
这也是一个探索的过程当找到适合自己的方法后就会利用这种方法提高学习效率其实在生活中的很多方面我们都在不自觉地运用探索与利用的理念无论是学习工作还是娱乐我们都需要在尝试新事物和利用以致经验之间找到一个平衡点感觉今天收获满满那我们是不是要稍微总结一下今天的要点呢好主意
好的首先我们了解了探索与利用的概念探索是为了发现未知的好东西而利用是为了最大化已知的收益在强化学习中智能体需要在这两者之间找到平衡没错然后我们用游戏闯关的例子说明了 AI 在学习过程中如何在探索中
总结的非常到位
最后我们还用了一些生活中的例子说明了探索与利用在生活中的普遍性感觉强化学习真的很有趣也很有用是的强化学习的很多理念都源自于我们日常生活中的经验如果你能够理解这些理念就更容易理解 AI 的工作原理太棒了
感谢小 T 今天的精彩讲解收听节目的朋友们如果你们还有什么问题欢迎在评论区留言感谢大家收听我们下期再见下期我们会聊聊强化学习中的奖励机制记得关注我们哦