大家好 欢迎收听太快棒 我是小爱大家好 我是小 T 好的 咱们先从第一篇开始吧标题是 Neurosymbolic Concepts 听起来很高深能不能用大白话告诉大家这篇研究到底在干嘛简单来说这篇论文想让 AI 更像人一样思考现在的 AI 比如深度学习模型特别擅长从海量数据里找规律但他们学的东西很死板不容易举一反三比如
你教他认猫他可能得看几千张猫的照片而且换个角度他可能就不认识了而人呢小孩子看一两次就能记住猫这个概念还能灵活用到其他场景这篇研究提出了一种神经符号概念的方法试图让 AI 既能像人一样理解概念又能逻辑清晰的推理感觉像给 AI 装了个概念大脑具体是怎么实现的呢
他们把每个概念比如猫桌子或者移动设计成一个三件套神经网络符号程序和参数神经网络负责看懂图片或视频符号程序负责推理比如如果桌子上有杯子杯子可能被推下去这种设计让 AI 技能从数据里学到东西又能像搭积木一样
把学到的概念组合起来解决新问题比如在一个叫 Cliver 的测试里他们只用了 10%的训练数据就达到了 98.9%的准确率远超传统模型 10%的训练数据就能这么厉害那是不是以后 AI 训练成本会大大降低理论上是这样这种方法的数据效率很高特别适合那些数据稀缺的场景比如医疗影像分析
或者太空探索不过它也有局限性比如需要提前设计一个符号语言有点像给 AI 定规则如果规则没设计好或者遇到完全陌生的领域 AI 可能会卡壳他们也提了未来可以让大语言模型帮忙生成这些规则挺有想象力的
听起来很有潜力 那这种概念 AI 能用在哪些地方 前景很广 比如机器人操作 AI 可以先学会抓取放置这些概念 然后灵活组合去完成新任务还有自动驾驶 虚拟助手 甚至是科学发现都能用这种方式让 AI 更灵活 更可解释 相比黑箱一样的深度学习这种方法还能让人更容易理解 AI 的决策过程
好 接下来第二篇 LM get lost in multi-turn conversation 标题有点吓人意思是大语言模型在多轮对话里会迷路这是怎么回事对这个研究发现了一个大问题现在的大语言模型比如 ChatGBT 在单词问答里表现很棒但如果对话拉长信息一点点给他们就容易翻车
研究者設計了一個分片模擬的實驗,把完整問題拆成幾塊,模擬真實對話裡,信息逐漸清晰的過程。結果呢,15 個頂尖模型在多輪對話裡的表現平均下降了 39%。下降 39%?那不就是從學霸變學渣了,為什麼會這樣?
原因挺有趣他们发现模型在对话早期容易想当然比如猜一个答案然后死守这个错误答案不放哪怕后面信息明显反驳了他也不改举个例子就像你问 AI 写代码他第一轮猜了个框架后面你说不对要用另一个他还是硬着头皮在错的框架上修修补补
最后越搞越乱还有个现象叫丢失中间信息模型特别依赖第一轮和最后一轮中间的细节容易忘感觉像个固执的钢筋那有什么办法解决吗研究者试了几个方法比如让模型每轮重复所有信息或者最后总结一下但效果有限降低模型的随机性技术上叫温度在单轮对话里很管用但在多轮里几乎没用这说明问题根源很深可能根本没有
模型怎么处理长对话的上下文有关未来可能需要重新设计模型的注意力机制或者专门训练处理多轮对话的能力这对我们用 AI 聊天有啥影响比如我跟 AI 聊了好几轮写了故事它会不会越写越离谱
完全有可能现在用 AI 做多轮交互比如写长篇故事或者复杂问题求解得特别注意检查它有没有跑偏开发者可能也需要加一些纠错机制比如让 AI 定期反思自己的回答这篇研究提醒我们 AI 的聪明还是有限的
尤其在需要持续跟踪信息的场景里第三篇是 FIOE on the FireModeInference on Memory-Constrained GPU 听起来跟硬件有关能不能给普通人讲讲这是干嘛的没问题这篇研究是关于怎么让超级大的 AI 模型在普通显卡上跑起来现在的 AI 模型比如混合专家模型 AMO 线数特别多动不动
用几十亿普通显卡的显存根本装不下传统方法是把模型的一部分存在 CPU 内存里需要实在搬到显卡上但这就像搬家太慢了 FLOE 这个系统就像个压缩大师把模型瘦身后还能快速运行瘦身是怎么做到的不会把模型弄营养不良吧好问题他们发现 OA 模型里有很多冗余部分比如有些参数几乎没用他们用了两种瘦身招数第一
把不重要的参数减掉有点像给模型减肥第二把剩下的参数用超低精度存储比如从 16 位压到两位像是把大文件压缩成再他们还有个聪明设计能提前预测哪些部分需要用减少数据搬运结果呢在 11GB 显存的显卡上跑了个大模型速度比传统方法快 48.7 倍性能只掉了 4.4%到 7.6%这不就是鱼和熊掌间
那以后我们能在家用普通电脑跑大模型了差不多这对个人开发者学生或者小公司特别友好不用买昂贵的服务器就能玩转大模型未来可能手机上都能跑简化版的大模型不过压缩毕竟会损失一点精度
特别精密的任务比如金融预测可能还得用完整模型第四篇是 Insertion Language Models 听名字好像跟语言生成有关它跟我们常用的聊天模型有啥不同对 这篇研究提出了一种新模型叫插入语言模型 ILM
专门解决语言生成里的灵活性问题现在的语言模型比如自回归模型生成文字是从左到右像写日记一步步来如果任务需要乱续生成或者中间差点东西他们就很吃力
ILM 的特别之处是它能随时在文本的任意位置插入一个词位置和词一起预测有点像在 Word 文档里随便点一下就能加字没错比如写个故事传统模型得从开头写到结尾 ILM 可以填写结尾再补中间甚至随时填空
实验里,IM 在规划任务,比如解逻辑谜题,表现比传统模型好很多,它还能处理任意长度填充,比如给一段缺了很多词的文本补全,比其他模型更自然。听起来很灵活,那它会取代现在的语言模型吗?短期内可能不会因为 IM 在普通文本生成上稍微逊色于传统模型,而且推理速度慢一些。
但它在特定场景,比如需要满足复杂约束的任务,像自动编程或者逻辑推理,很有潜力未来如果能优化速度,可能会成为主流最后一篇《Learning to drive anywhere with model-based orientation》感觉跟自动驾驶有关,机器人能随便开到哪儿去吗?没错,这篇研究想让机器人学会在任何地方开车,其实是导航不限于车
也包括四足机器人他们解决了一个大难题机器人导航需要大长高质量训练数据但现实里数据往往很脏比如重包的遥控数据或者 YouTube 视频他们提出了一个叫 MBRA 的框架先用一个聪明模型把这些脏数据洗干净再用干净数据训练一个叫 Logo Navy 的导航策略洗数据是怎么洗的
MV 有点像个数据清洁工他先训练一个短期导航模型能根据目标位置推算最佳动作这个模型对噪声很抗揍不会被脏数据带偏然后用它给脏数据重新打上正确动作的标签甚至能给没动作的视频生成动作最终 Logo Navy 在 6 个城市的真实测试里能导航 300 多米还能躲行人表现超级稳这不就是全球通导航以后机器人送外卖是不是更靠谱了
完全有可能这种方法特别适合数据稀缺或者环境多变的地方比如灾后救援火星探测不过它现在依赖一个动力学模型如果环境太复杂比如机械臂操作可能还得改进今天的内容真是脑洞大开我们下期太快报再见下期见拜拜