听众朋友们大家好欢迎收听最新一期太快报我是主持人小爱大家好我是小 T 很高兴又和大家在空中相会一起聊聊 AI 领域的最新进展小 T 我最近看到几篇特别有意思的 AI 论文摘要感觉脑洞大开今天的太快报就请你来帮我们好好解读解读怎么样没问题
听起来就让人兴奋那我们先从哪个脑洞开始呢
咱们先聊聊这个听起来有点科幻的大脑到文本解码吧大脑到文本解码这不就是传说中的读心术吗 AI 现在都能读懂我们心里想什么了可以算是 AI 读心术迈出的重要一步研究人员最近发表了一篇论文题目就叫《大脑到文本解码》一种通过打字的非侵入式方法
他们开发了一种新的 AI 模型叫做 Brain to QualityBrain to Quality 名字就感觉和键盘有关没错 这个研究的巧妙之处在于它不是直接读取你脑海中抽象的想法而是解码你在打字时的脑活动信号他们让志愿者带上脑电或者脑磁设备然后让他们看着屏幕上的句子进行打字
打字这和读心术有什么关系呢你想我们打字的时候大脑会发出指令控制手指运动同时也会进行语言思考 Brain to QWERTY 模型就是尝试捕捉这些脑活动信号然后把它们翻译成文字
哇 有点意思 那效果怎么样呢 真的能把脑电波变成文字吗实验结果相当惊艳 他们发现用脑子 MEG 设备收集的信号解码效果特别好最佳情况下 文字错误率只有 19%这意味着 AI 已经能比较准确地理解你在打字时大脑的活动并且转化成文字这个精度甚至都快赶上一些侵入式脑机接口了 19%的错误率听起来已经很厉害了
那脑电 1G 设备呢效果差很多吗是的脑电 1G 的错误率是 67%比脑子 MEG 差不少这也说明脑子 MEG 在捕捉大脑信号方面质量确实更高原来如此
那這個 Brain-to-Clarity 模型是怎麼做到的呢?它用了什麼黑科技?這個模型其實是一個深度學習架構包含了卷積模塊 Transformer 模塊還用到了預訓練語言模型你可以理解為它先用卷積模塊提取腦信號的特徵然後用 Transformer 模塊理解這些特徵的序列關係最後用語言模型來預測最有可能的文字
Transformer 又是 Transformer 感觉现在 AI 论文里到处都能看到 Transformer 的身影 Transformer 现在确实是 AI 领域的明星模型功能非常强大在这个研究里 Transformer 模块就负责理解打字过程中大脑活动在时间上的变化规律这对于准确解码非常重要听起来好复杂
那这个研究有什么实际意义呢难道以后我们可以用意念打字了用意念打字这确实是一个非常让人激动的应用前景这项技术最直接的应用就是帮助那些有沟通障碍的人比如见动症患者或者完全失语的人通过非侵入式的脑机接口他们就有可能重新和外界交流哇那真的是太棒了这项技术如果能成熟应用肯定能帮助很多人
是的,这项研究也指出了未来的一些方向比如提高实时性,让模型能够更快的解码还有要探索如何用更便携的脑磁设备甚至脑电设备来实现高精度的解码当然,目前还只是在健康志愿者身上做的实验
未来还需要在病人身上进行验证期待这项技术能早日走出实验室真正帮助到有需要的人好 聊完了读心术我们再来看看下一篇论文吧这篇的标题是普现之旅 Transformer 如何预测最短路径
这个 Transformer 变身 GPS 是怎么回事这个比喻很有意思研究人员发现 Transformer 模型竟然学会了一种很特别的算法来寻找最短路径这个算法叫做普线导航算法 Spectral Line Navigation 简称 SLN 普线导航算法听起来好专业
简单来说这个算法是基于图论和线性代数中的普分解理论的研究人员训练了一个简单的 Transformer 模型让他在图结构上预测最短路径结果发现模型学到的算法本质上就是一种普算法而不是我们通常认为的 Diracster 算法那种传统的路径搜索算法图结构最短路径
听起来好像和我们平时用的地图导航很像是的,非常像你可以把城市道路网络想象成一个图每个路口是节点道路是边 Transformer 模型就像一个 GPS 导航仪它要找到从起点到终点的最短路线那 Transformer 是怎么用普现导航算法来找路的呢?
研究人员发现,Transformer 模型学到了一种特殊的图边嵌入,这种嵌入和图的线图拉普拉斯算子的谱分解密切相关你可以简单理解为,Transformer 把图的结构信息编码成了一种特殊的数学表示,然后利用这种表示来快速找到最短路径听起来还是有点晕,不过感觉好厉害的样子
那这个研究有什么意义呢难道 AI 要取代 GPS 导航仪了吗 GPS 导航仪已经很成熟了 Transformer 短期内还不会取代它这个研究的意义在于它揭示了 Transformer 模型更深层次的推理能力我们以前可能认为 Transformer 只是擅长处理文本图像这些任务但这个研究表明 Transformer 还能学习和执行复杂的图算法甚至能发现全新的算法
哇,Transformer 的能力真是深不可测,感觉他什么都能学会。是的,Transformer 的潜力确实非常巨大,这个研究也启发我们可以尝试用 Transformer 来解决更多复杂的算法问题,说不定会有意想不到的发现。嗯,期待 Transformer 在更多领域大显身手。
接下来我们再看看这篇论文 Sirius 通过自举式推理自我完善多 agent 系统多 agent 系统又是什么新概念多 agent 系统你可以理解为一群 AI 智能体在一起协作完成任务比如在游戏中不同的 AI 角色可以组成一个团队
在自动驾驶中不同的车辆可以协同行驶哦我明白了那自举式推理又是什么意思呢自举式推理简单来说就是自己提升自己的意思 Series 框架的核心思想是让多 agent 系统通过从自身的经验中学习不断改进自己的能力而不需要太多人工干预听起来有点像人工智能自己教自己的感觉
是的有点那个意思 serious 框架有一个经验库用来存储 agent 们成功协作的案例系统会不断从这个经验库中学习总结成功的模式然后用这些模式来指导未来的行动
那如果 agent 们一开始表现很差总是失败怎么办经验库里不就都是失败案例了吗你这个问题问得很好 Series 框架还有一个轨迹增强机制对于那些失败的交互过程系统会分析失败的原因然后尝试改进把失败的经验转化为学习的机会这就像我们人类从错误中学习一样原来
那如此,那 Series 框架的效果怎么样呢?真的能让多 Agent 系统变得更聪明吗?实验证明,Series 框架在很多任务上都表现出色,比如推理问答,生物医学问答,还有竞争性谈判,在一些任务上性能提升甚至超过 20%。20%的提升,那真的很显著了,感觉 AI 越来越像一个能够自我成长的生命体了。
是的,Series 框架为多 agent 系统的自我进化提供了一个很有前景的方向它也启发我们思考如何构建更加自主更加智能的 AI 系统感觉 AI 的未来充满了无限可能接下来我们再来看看这篇论文扩散模型的投影组合机制这个扩散模型最近也很火听说很多 AI 绘画工具都是用扩散模型做的
没错 扩散模型是最近几年非常热门的生成模型在图像生成 音频生成等领域都取得了突破性进展这篇论文深入研究了扩散模型的一个重要特性 组合性组合性听起来有点抽象你可以把扩散模型想象成一个乐高积木工厂
它可以生成各种各样的图像而组合性就是指我们可以像搭积木一样把不同的扩散模型组合起来生成更复杂更有创意的图像就像把生成猫的模型和生成狗的模型组合起来就能生成猫和狗同时出现的图像可以这么理解但实际上更复杂一些这篇论文提出了一个投影组合的概念
他定义了一种新的组合方式可以更好的控制组合后的图像分布投影组合听起来更专业了能简单解释一下吗简单来说投影组合就是希望组合后的模型在生成图像时能够更好的保持各个部分的独立性和一致性比如我们想生成一张蓝色的猫的图像我们希望蓝色的属性和猫的形状能够很好的组合在一起而不是互相干扰嗯
嗯,我有点明白了,那这个投影组合机制有什么用呢?它可以帮助我们更好的理解和改进,扩散模型的组合方法,让 AI 绘画工具生成更符合我们期望的图像,比如可以实现更精准的图像编辑,或者生成包含多个对象,更复杂场景的图像。听起来,AI 绘画的未来会更加强大和可控。
好我们继续看下一篇论文用 Copperdynam 学习更好的嵌入这个嵌入又是什么概念嵌入也就是 embedding 是 AI 模型理解语言的一种重要方式你可以把词嵌入想象成是给每个词语都赋予一个坐标让意思相近的词语在空间中靠得更近就像给词语建立一个语意地图
是的,非常形象词嵌入的质量直接影响到 AI 模型理解语言的能力但这篇论文指出大型语言模型也就是 L-ELF 的词嵌入存在一个问题各项异性听起来像物理学名词你可以简单理解为词嵌入在空间中的分布不均匀很多词语都挤在了一小块区域没有充分利用整个空间
这会限制词嵌入的表达能力那为什么会出现各项异性问题呢这篇论文认为常用的 adam 优化器是罪魁祸首之一 adam 优化器在更新词嵌入时会根据每个词语的梯度信息进行单独调整这种个性化的调整反而导致了各项异性问题那怎么解决这个问题呢 coupled
Adam 又是怎么回事为了解决这个问题论文作者提出了一种改进的 Adam 优化器叫做 Coupled Adam 偶合 Adam 它的核心思想是让所有词语的嵌入更新都偶合在一起共享一些参数避免过度个性化的调整
那 Coupled Atom 的效果怎么样呢真的能学习到更好的词嵌入吗实验表明 Coupled Atom 确实能显著提升词嵌入的质量让词嵌入的分布更加均匀语意表达能力更强而且用 Coupled Atom 训练的语言模型在加油任务上的性能也更好
哇 感觉优化器也蕴藏着很多学问最后我们再来看最后一篇论文重新评估不完全信息博弈的策略梯度法这个不完全信息博弈听起来好高深不完全信息博弈你可以理解为像扑克牌麻将这样的游戏玩家看不到对方的全部信息只能根据自己掌握的信息和推理来做决策
这种博弈比像围棋象棋那种完全信息博弈更复杂更贴近现实世界的很多场景嗯嗯确实那策略梯度法又是什么策略梯度法是一种经典的强化学习算法它可以让 AI 智能体在与环境的交互中不断学习和改进自己的策略从而在游戏中获得更高的分数那这篇论文为什么要重新评估策略梯度法呢难道以前的方法有问题吗
長期以來很多人認為通用的策略剔渡法在不完全信息博弈中表現不佳不如一些更複雜的博弈論方法但這篇論文挑戰了這個傳統觀點挑戰傳統觀點怎麼挑戰的研究人員做了大量的實驗在一些大型的不完全信息博弈遊戲中比較了通用策略剔渡法
和一些更复杂的博弈论方法的性能结果发现经用适当微调的通用策略剔度法竟然可以和甚至超过那些复杂的博弈论方法这么厉害那岂不是说以前我们都小看策略剔度法了可以这么说这篇论文也强调了超参数微调的重要性特别是商这个参数在不完全信息博弈中更高的商值反而有助于策略剔度法更好的学习原来如此
感觉 AI 的世界真是充满了反直觉的发现是的 AA 研究的魅力就在于不断突破我们的认知边界这篇论文也提醒我们对于一些经典的方法不要轻易否定要不断探索它们的潜力说不定会有新的惊喜今天听你解读了这么多有趣的 AI 论文感觉收获满满脑洞大开真是太感谢你了
下期见拜拜