大家好 欢迎收听本期太快报 我是小爱大家好 很高兴又见面了那我们就开始吧第一篇听起来很有意思叫做科尔默·戈洛夫测试是跟 AI 的推理能力有关的能不能先给我们讲讲这个压缩和智慧有什么关系
当然想象一下你要把一堆乱七八糟的东西塞进一个小箱子最聪明的方法是什么不是硬塞而是找到规律把它们整理得整整齐齐只用最少的步骤就能还原这篇论文的核心就是这个思路如果
AI 能把一串复杂的数据比如音频 文本或者 DNA 序列用一个超级短的程序重新生成出来那就说明它真的很聪明因为这需要它看透数据的底层模式而不是死记硬背
他们提出了一个新测试叫科尔默哥洛夫测试简称 KTAI 的任务是拿到一串数据比如一段音乐然后写一个最短的程序让这个程序跑出来后能完美输出这段音乐程序越短说明 AI 越懂得浓缩精华
听起来像是 AI 版的极简主义那这个测试有什么特别的地方吗特别的地方可多了首先它很公平不容易作弊因为你不能靠背答案数据是随机给的甚至可以无限加长逼着 AI 去真正理解模式
其次他还能跟经典的压缩工具比如 GZIP 比一比看看 AI 到底有多强他们还设计了一些假数据用一种特殊的语言生成让 AI 去破解结果发现现在的顶级模型比如 GPT40 表现都不太行写出来的程序要么太长要么根本跑不通那 AI 为什么会翻车
然后呢连音频有意思他们发现 AI 在假数据上还能凑合因为假数据的模式是人为设计的比较简单但换到真实世界的音频或者 DNA AI 就蒙了经常写出一些啰嗦的程序甚至连基本的数学运算都搞错这说明 AI 虽然能模仿但要真正提炼智慧还有很大的路要走有点像我们考试时死记硬背结果遇到新题就傻眼了
那未来怎么改进呢乐乐里提了几条路比如让 AI 多练真实数据或者用强化学习像玩游戏一样一步步优化程序他们还开放了代码和数据希望大家一起挑战我觉得这就像给 AI 出了一道终极之力题以后它要是能破解说不定还能帮我们压缩电影音乐
甚至发现科学的隐藏规律接下来是第二篇标题是什么让奖励模型成为好老师听起来像是 AI 的家教问题能不能讲讲这里面的门道没问题我们先说说背景现在很多 AI 比如聊天机器人都是通过人类反馈强化学习来调教的
简称 RLHF 简单来说就是有个奖励模型给 AI 打分告诉他你这个回答好给你高分那个不行低分 AI 就根据这些分数调整自己变得更聪明但这篇论文发现大家以前太关注奖励模型打分准不准了却忽略了一个更重要的问题他能不能当个好老师好老师和打分准有什么区别吗
区别可大了想象一下你有个数学老师每次考试都打得很准但分数总是差不多比如都给你 90 分左右你学的慢因为你分不清哪里该多努力这论文用数学证明了如果奖励模型给的分数差别太小就像一条平平的路 AI 走起来就很慢找不到方向反过来如果分数差别大哪怕偶尔打的不准 AI 反而能更快找到正确的路所以不是越准越好而是要有区分度
对 他们管这个叫奖励方差这像爬山坡越陡你越知道该往哪走他们还发现这个方差跟 AI 本身有关同一套奖励模型对一个 AI 可能是好老师对另一个可能就不行因为每个 AI 的性格不同他们做了实验用高达 80 亿参数的模型验证发现确实是方差高的奖励模型能让 AI 进步更快那怎么让奖励模型变得更有个性呢
论文没给具体方法但提出了方向比如调整训练数据让奖励模型对好坏的判断更极端一点未来研究可能会设计一些新招让奖励模型既准又有脾气这对我们用 AI 聊天的人来说可能意味着未来的机器人会更懂我们的喜好而不是千篇一律第三篇是关于图像的标题是上下文的力量多模态如何提升图像超分辨率这听起来像是给照片模皮升级版能不能讲讲
比磨皮可高級多了我們平時看到的照片如果放大後變模糊那是單圖像超分辨率的難題傳統方法只能靠照片本身猜細節效果有限這篇論文提出了一個新思路叫多模態超分辨率簡稱 MSR 意思是不光看照片還用文字描述深度信息物體分割這些幫手一起把模糊照片變清晰這怎麼做到的聽起來像偵探破案多找線索
你说的太对了比如你有一张模糊的猫咪照片 AI 观看照片可能猜不出毛发的细节但如果你告诉它这是一只白猫在草地上再加上深度图制到猫咪离镜头近草地远还有分割图制到猫咪的轮廓 AI 就能脑补出更真实的细节
他們用了一種叫擴散模型的技術把這些線索融合起來生成的效果比以前的方法更自然更細膩那會不會亂猜比如把貓咪變成狗
他们也考虑到了这个风险光靠文字描述确实可能跑偏所以他们加了深度和分割这些应用因素就像给 AI 画了个框告诉他只能在这范围里发挥结果显示这种方法生成的图像不仅清晰还特别真实连专业测试都超过了老方法
有没有什么特别酷的应用有你可以控制细节比如想让背景更模糊突出猫咪就调高深度信息的影响想让猫咪更显眼就加强分割信息以后手机拍照可能直接用上这个技术模糊照秒变大片
不过它也有点小缺点算起来挺费力需要更多计算资源最后一篇是真实引出不精确预测听起来有点哲学能不能给我们讲讲这是怎么回事好这个确实有点深我们平时看天气预报可能会说明天 80%下雨这是精确预测但有时候预测者自己也不确定只能说可能
60%到 90%之间这种不精确预测在医疗安全这些关键领域特别重要因为它反映了真实的不确定性这篇论文就想解决怎么让预测者老实说出这种模糊的想法而不是随便给个数字敷衍他们发现传统的评分方法有个问题如果预测者不确定他可能为了拿高分故意给个保守的答案
而不是真心话为了破解这个他们设计了一个新方法让预测者和决策者双向沟通决策者先告诉预测者我会怎么用你的预测比如取平均值或者看最坏情况然后用一种随机化的评分规则激励预测者说出真实的信念范围这听起来像谈判为什么要随机化呢
那這個方法有沒有什麼挑戰?
有最大的挑战是实际操作有点复杂,到设计好随机规则,还要让决策者配合,不过它给我们一个启发,面对不确定性,与其追求假装精确,不如拥抱真实的模糊可能更有价值。今天的四篇论文真是脑洞大开好了,今天的太快报就到这里,感谢小 T 的精彩讲解,也谢谢大家的收听,我们下期再见。下期见,拜拜。