大家好,欢迎收听菜快报,我是小爱。大家好,我是小 T,很高兴我们又见面了。那我们先从第一篇开始吧,标题是 Symbolic Representation for Any to Any Generative Task。听起来很酷,这个任意到任意是什么?
任意到任意就像 AI 界的《变形金刚》这篇论文提出了一种新框架能让 AI 在不同模态之间自由转换比如从文本生成图像从图像生成视频甚至从音频生成 3D 模型全部由自然语言指令驱动
核心是他们发明了一种叫 a language 的符号语言把复杂的生成任务拆成三个部分函数参数和拓扑结构就像搭积木函数是基本模块参数是调整方式拓扑结构是拼装顺序听起来像把 AI 任务编程化了但这跟我们平时用的生成模型比如文生图的 stable diffusion 有什么不同
区别可大了,传统模型像个黑盒,需要大量数据针对特定任务训练,灵活性差。而这个框架不用训练,直接用预训练的大型语言模型把你的指令翻译成 A language 的工作流再执行。比如你说把这张猫图变成卡通风格的视频,它会自动拆解任务,找对的函数和参数拼出执行流程。更厉害的是,你可以随时改这个程序,比如换个模型或调整风格,灵活地向编辑文档。
这不就是把 AI 生成变成可编程了吗那它有多靠谱不会出错吧他们测试了 120 个生成任务从简单到多步复杂任务表现跟顶尖神经模型差不多甚至在复杂任务上更好
而且他们还有个纠错模块如果生成的流程有问题 AI 会自己检查修复不过有个小挑战它依赖大型语言模型的推理能力如果模型理解错了指令可能会生成错误的流程
听起来前景很广以后是不是可以用它定制专属的 AI 生成工具完全有可能它的可编辑性和高效性特别适合个性化应用比如设计师可以用它快速生成多模态内容不过要普及可能还得优化后端工具的兼容性让更多平台支持这种符号流执行
好 接下来第二篇 Energy Considerations of Large Language Model Inference and Efficiency Optimizations 这篇听起来跟环保有关 AI 也能绿色吗对 这篇研究直击大型语言模型的能耗问题你知道像 XDBT 这样的模型推理时 GPU 跑得火热能耗惊人这篇论文分析了真实世界任务中模型推理的能源消耗发现优化得当 能把能耗降低高达 73%
73%内是怎么做到的关掉几台 GPU 吗不是那么简单他们测试了各种优化方法比如用更高效的软件框架 BLM 调整解码策略选对硬件甚至并行化处理关键发现是没有一种方法通知所有场景比如推特解码能加快速度但在批量处理多条数据时反而更耗能就像开车高速不一定省油的看路况所以的因地制宜
那这对我们普通人有什么影响当然有更节能的 AI 意味着云服务的成本降低普通用户可能用更低的费用享受 AI 服务而且从环保角度看这能减少数据中心的碳排放论文还提醒我们理论上的能耗估算跟实际差很远比如 PyTorch 的实际能耗比理论高出 5%、106%
所以优化必须基于实测看来 AI 的绿色革命还得继续努力第三篇是 The Sparse FrontierSparse Attention Tradeoffs in TransformerLM 这个稀疏注意力听起来很玄乎是什么
简单说,吸收注意力是让大型语言模型处理超长文本的审理方法。传统 Transformer 模型处理长序列时,快计算每个词,跟其他所有词的关系计算量巨大。吸收注意力就像直调重要关系算省下很多计算资源。这篇论文测试了不同吸收方法,发现更大。
但更稀疏的模型在長序列任務上性價比更高聽起來像給 AI 減肥那它效果好嗎?效果因任務而異他們發現解碼階段可以更稀疏而不丟精度但喻田沖階段的小心而且即使平均性能不錯某些特定任務上稀疏化可能導致嚴重失誤就像你做筆記只記重點可能漏掉關鍵細節所以用稀疏注意力的精準評估任務需求
有点像权衡时间和质量那这技术未来能用在哪?非常适合需要处理长文档的场景比如法律文件分析长篇小说生成不过先解决任务敏感性问题确保不会在关键任务上掉链子论文还提出了稀疏注意力的规模定律预测不同配置的表现挺有前瞻性好的
第四篇是 Cracking the Code of Action, a Generative Approach to Affordances for Reinforcement Learning,这个强化学习和生成式结合听起来很硬核,确实硬核这篇研究解决强化学习的一个老大难让等效率低。
想象一个 AI 要学会网页导航动作空间巨大比如鼠标点键盘输入啥但奖励很少只有完成任务才给糖他们用视觉语言模型生成 Python 代码提前判断哪些动作有意义比如点这个按钮能打开新页面然后让 AI 只考虑这些动作学习效率提升了 10 倍 10 倍这代码是怎么生成的
他们用视觉语言模型分析任务描述和界面截图生成能识别意图的代码比如任务是打开标签页模型会生成代码检测页面上的标签页位置返回可点击的坐标强化学习只在这些有意义的动作里选省去无效探索
更牛的是,这代码还能在类似任务上复用这不就是给 AI 装了个导航仪,有没有什么局限?有代码质量依赖视觉语言模型的能力如果模型没看懂界面或任务生成的代码,可能漏掉关键动作而且他们用的模板、匹配技术对界面变化敏感比如按钮、样式变了,可能就认不出
不过这方法在低数据场景下表现惊人,连专家演示都不需要。最后一篇,Paper to Code, Automating Coded Generation from Scientific Papers in Machine Learning,这个听起来超实用,AI 能直接把论文变代码。
对这篇解决了 AI 研究的大痛点,很多论文没公开代码重现实验超级麻烦。他们开发了 PaperCoder,一个多智能体框架,分三步,从论文生成代码仓库,规划架构,分析细节,逐文件编码,测试了 90 篇顶级会议论文生成的代码可执行性超高,平均只改 0.48%的代码就能跑。
0.48%几乎完美那它是怎么做到的 PaperCoder 模仿人类写代码的流程先画蓝图再细化每个模块最后写代码多个 AI 智能体协作像个虚拟开发团队原论文作者评测后 77%认为这代码对重现研究最有帮助
想象一下读完论文 AI 直接给你个能跑的代码库省多少时间这对研究人员简直是福音有没有什么不足目前主要针对机器学习论文其他领域可能需要调整而且深层的代码偶尔会漏掉论文细节的人工微调不过这已经是个巨大飞跃未来可能让科学研究更透明更高效五篇论文每篇都打开了 AI 的新玩法
今天的太快报就到这里欢迎留言分享你的想法我们下期再见下期见拜拜