大家好 欢迎来到这一期的太快报 我是小爱大家好 我是小 T 很高兴又和大家见面了我们先从第一篇开始 Wanting to be understood 渴望被理解这个标题就很有吸引力 AI 也会想被理解吗这听起来不像机器会关心的事情
是的 這個研究確實很特別 它挑戰了我們對 AI 動機的傳統看法通常我們認為 AI 會因為好奇心去探索環境 但這篇論文提出單純的好奇心不夠 AI 還需要一種渴望被理解的內在驅動力 才會更像人類的進行社交互動他們設計了一個實驗環境 叫做感知交叉範式
想象成两个机器人在一个虚拟空间里他们可以互相感知但看不到对方研究发现如果 AI 被设定为想被对方理解比如通过模仿对方动作影响对方或者预测对方的行为他们会感受到
更倾向于互相合作甚至在只有一方有奖励的情况下也能合作这就像我们人类在交朋友时不光想让别人听懂自己也希望理解别人形成一种双向的信任哇 这让我想到和朋友聊天时那种心有灵犀的感觉
AI 通过模仿和影响就能有类似的效果吗那它会不会变得像人类一样有感情这个就有点哲学了研究没说 AI 会真的有感情但它确实捕捉到了人类社交的核心互惠性也就是说 AI 不仅要影响别人也要允许自己被影响
这种机制让 AI 的行为更像是有社会意识而不是冷冰冰的机器比如你可以想象未来有个家用机器人他会根据你的习惯调整自己的行为同时也希望你能理解他的意图这样互动会更自然不过研究也有局限它是在一个很简化的环境中做的
现实世界里的社交远比这复杂但这个发现已经很了不起了它暗示 AI 的社交能力可能不仅仅靠数据训练还需要设计更深层次的动机太有趣了那第二个研究呢 Self-steering language models 听起来像是 AI 学会了自己导航这是什么意思没错研究团队团队提出了一个叫 DISCIPL 的框架让语言模型自己规划怎么思考
而不是单纯靠规模更大或者更多数据传统上我们以为让 AI 变聪明就得让模型越来越大比如从 GBT3 到 GBT4 但这篇论文说不一定非得这样他们让一个小模型比如只有 10 亿参数的来码通过一个规划者生成任务专用的推理程序然后指导一组执行者去完成任务举个例子假设你要让 AI 数一个句子里的字符
或者在预算有限的情况下规划形成 DSCIPL 会先让规划者设计一个清晰的步骤比如先分段 再技术 再检查然后执行者按步骤走这种方法用上了概率编程和一种叫序贯蒙特卡洛的技巧让计算更高效甚至小模型的表现能赶上大模型
像 GPT-4O 这就像是 AI 学会了分布思考而不是乱撞那这种方法有什么实际好处吗好处大了它让 AI 在复杂任务上更可靠也更节省资源比如未来你用语音助手问问题它可以更快更准地回答
而不需要依赖超大的计算中心这也提醒我们 AI 的聪明不一定靠肌肉而是靠策略不过缺点是这个框架有点复杂需要 AI 自己写程序容易出错而且它目前主要在特定任务上验证过通用性还有待考验明白了那第三个研究 CLC 听起来很技术但名字挺有猫科动物的感觉
AI 和猫有什么关系这个名字其实是循环卷积注意力的缩写和猫没关系但确实很聪明这个研究解决了一个大问题现在的 AI 模型比如 Transformer 处理大量数据实际算量像平方增长太耗资源了
研究團隊提出了一種新方法用負離葉變換和循環卷積把計算量降到接近對數的水平簡單說想像你有一堆書要找關鍵詞傳統方法是每一本書都翻一遍很費時間 CAT 就像用了一個巧妙的索引系統只看關鍵部分就能找到答案它不僅快還能保持甚至提高準確性在圖像識別和語言建模的測試中 CAT 讓模型快了約 10%參數還少了一些
真相魔法那它未来能用在哪里比如我的手机 AI 会变快吗绝对有可能如果 CAT 被广泛应用未来你的手机 AI 自动驾驶系统都能更快响应尤其是在处理长视频或长文章时缺点是它目前主要在有限的测试中验证过特别长的序列或新领域还需努力但这个思路很棒它告诉我们效率和性能可以兼得
不一定非得牺牲一个太酷了我们再聊聊第四个 N information geometric approachto artificial curiosity 这个听起来像数学家和 AI 的跨界合作信息几何是什么没错这篇论文用了一种叫信息几何的数学工具重新思考 AI 的好奇心你知道 AI 在没有明确奖励时靠好奇心探索新东西但
但怎么设计这种好奇心一直是个难题他们发现 AI 的探索奖励应该基于它对环境的信息量而且这种信息量应该是一种不变的性质无论怎么表示都一样他们用几何的思路证明奖励可以是环境占有率的某种函数并找到一个参数 SD 来平衡探索和利用比如 G 等于 0 是传统技术法
alpha=-1 是最大商探索中间有很多可能的选择听起来很抽象但也很实用那这对我们有什么启发?启发是 AI 的探索不该是随机的而应该有更科学的依据未来游戏 AI 机器人可能会更聪明的决定去哪探索而不是到处乱撞这也让我们看到数学和 AI 的结合能带来深远的改变不过这篇论文更多是理论实验还不够多
实际应用还有距离最后第五篇 Rethinking Rope 又是什么旋转位置编码听起来像物理学里的东西其实是 AI 里的一个技术用来帮模型理解数据在序列中的位置比如一句话里每个词的位置传统 Rope 有点像经验积累这篇论文提出用更高级的数学理群和理代数给 Rope 建立了一个严谨的基础
他们发现 Rope 有两个核心性质相对性和肯定性简单说就是位置编码要能反映此与此之间的关系而且要唯一对应这样他们推导出了 N 维空间的通用公式甚至能让模型学会不同维度之间的互动比如时间和空间一起考虑这听起来能让 AI 更懂上下文比如看视频时同时理解时间和画面对未来这种方法可能让 AI 在视频 3D 建模等领域表现更好
但目前还停留在理论阶段实验不多计算成本也可能是个问题今天的内容真是让人大开眼界从社交到推理再到效率和理论这些研究都指向 AI 更像人类更高效的方向今天的太快报到此结束我们下期见感谢小 T 的精彩讲解也谢谢大家的收听下期见拜拜