大家好,欢迎收听本期太快报,我是小爱。大家好,我是小 T,准备好了吗?咱们从第一篇开始。第一篇是关于 DeepFake 检测的,叫 Truth Lens Explainable DeepFake Detection for Face Manipulated and Fully Synthetic Data.
听起来像是给 AI 装了个火眼金睛这 Deepfake 到底是啥为啥需要特别检测好问题 Deepfake 简单来说就是用 AI 技术伪造的图像或视频尤其是人脸比如有人可能会用 AI 把一张照片里的人脸换成另一个或者干脆生成一个完全不存在的这种技术用的好能拍电影用的不好就可能骗人所以检测 Deepfake 变得特别重要尤其是
尤其是现在 AI 生成的内容越来越多肉眼已经很难分辨真假了这篇论文提出了一种叫 Truth-in-the-Cross 框架不仅能判断一张脸是真是假还能解释为啥这么判断比如它能告诉你眼睛看起来不自然或者嘴巴的细节有问题这就像给 AI 装了个侦探脑既能破案还能讲推理过程哇
这不就像电影里的 CSI 一样那它是怎么做到的我猜肯定不简单吧确实不简单 TruthLens 用了两种 AI 模型一起工作一种是多模态大模型擅长看整体比如整张脸的场景和背景另一种是纯视觉模型专门盯着细节比如眼角有没有不自然的纹路他们把这俩模型的特长混在一起就像一个团队一个管大局一个查细节
他们还有个聪明招数 分两步训练先用普通图片教 AI 怎么描述图像再用 deepfake 图片教他找伪造痕迹这样 AI 既懂怎么看图 又知道哪里容易被动手脚结果呢 他在各种测试中都比以前的方法准还能对付压缩过的低质量图片听起来真厉害 那他能干啥用呢比如我拍张自拍 他能看出我美颜开得有多狠吗
美言不算 deepfake 但理论上它能分辨出照片被改过的地方不过它的主要用途还是更严肃的场景比如防止网络诈骗保护新闻真实性想象一下如果有人用 AI 伪造名人视频散布假消息 Truth lens 就能站出来说别信这脸是假的因为嘴角的动作不匹配太酷了看来以后 AI 不仅会帮我们拍照还会帮我们验货不过它有啥缺点吗
它用两个大模型计算量不小,对设备要求挺高而且它现在主要针对图片将来要是想检测视频或音频可能还得再升级不过能做到又准又能解释已经很了不起的接下来是 Mixer of Lookup Experts 听着像是个专家团队
这又是傻心花样这个研究很有意思它针对的是混合专家模型也就是 MOE 这种模型很强大但有个问题推理时需要加载一大堆参数到显存里速度慢还占地方他们就想了个办法叫 MOLE 意思是查找专家混合简单说他们把专家从复杂的计算网络变成了一张速查表训练时还是正常计算但推理时直接查表
就像考试前把答案写在小抄上用的时候翻出来就行这样速度快了显存也省了这不就是偷懒的高级版吗查表不是很简单吗效果还能好吗你说得对查表听起来简单但效果还真不差
他们发现 AI 的很多计算其实可以提前做好存成表格推理是不用再算一遍直接找答案就行实验证明这种方法速度跟普通模型差不多比传统 MOE 快多了性能也没啥损失那这个查表是怎么弄出来的
總不能手工寫吧當然不是他們在訓練時先讓模型正常學習然後把結果整理成表格存在硬盤上推理師只加載需要的部分到顯存通信開銷幾乎可以忽略就像把一本厚書濃縮成幾頁重點筆記計審時有省力真聰明
那它能用在哪特别适合需要快速响应的场景比如手机上的 AI 助手或者边缘设备上的语言模型现在大模型动不动几百亿参数显存不够用 Mole 就能让他们在普通设备上跑得飞快
不过天下没有免费午餐吧有啥代价吗确实代价是硬盘空间会多占点因为表格得存下来如果模型更新频繁还的重新做表维护成本会高点但对于稳定使用的场景这个权衡很值得第三篇是 LM Braces Straightening Out LM Predictions with Relevant Sub-Updates 这个 Braces 听着像牙套 AI 也需要矫正吗这个比喻很贴切这里的 Braces 的确是帮 AI 振行的
大圆模型虽然很聪明,但预测时有时会跑偏,比如瞎编事实或者语气不对。这篇论文提出了一种方法叫 LLM braces,通过调整模型内部的计算,让预测更靠谱。怎么个调整法,听起来像是给 AI 动手术。差不多,他们关注的是模型里的潜窥网络层,相当于 AI 的思考核心,这个层会产生很多小的更新,有些跟输入很相关,有些就是瞎凑热闹。
他们加了个相关性模块给每个根心打分高分的留下低分的削弱就像给牙齿装上牙套把歪的拉直那这个评分是怎么定的我猜肯定不是随便给个数吧没错他们用了个门控机制根据输入内容算出每个根心的重要性比如你问 AI 一个科学问题他会优先用跟科学相关的根心忽略不相干的
这样预测就更准了还能控制语气比如让 AI 少说毒舌话这不就是 AI 的情商提升课吗效果咋样效果很不错他们在几个大模型上设了项来码和签问结果比传统方法好尤其在零样本任务和情感控制上
而且它参数少,比其他微调方法省力多了听着挺完美,有啥不足吗?目前它主要在文本模型上试过,还没扩展到多模态比如图片加文字的场景,而且对模型内部的理解还要再深入不过能让 AI 预测更靠谱,已经很实用了第四篇是 Special Speculative T-Value Kitchen for Efficient Generation of LM
这个缓存听着像是电脑里的东西 AI 也需要吗对大约模型生成长文本时会用一种叫见值缓存的东西存着之前算过的信息但问题来了文本越长缓存越大显存很快就塞满了
Spatch 就是来解决这个内存肥胖症的那它咋减肥的不会是直接扔掉吧不是扔而是聪明的搬家他们把完整缓存放进 CPU 内存只把最需要的部分预取到显存怎么知道哪些需要呢他们用了个推测解码先猜下一步会用啥然后提前取过来这样显存用量能压缩 10 倍速度还不慢
这不就像提前点菜吗猜的准不准挺准的他们用低比特缓存做预测实验证明效果跟完整缓存差不多尤其在长文本任务上比如写小说或者总结文章他还能并行处理基本感觉不到延迟那他能干啥大事
特别适合需要处理超长文本的场景比如法律文档分析或者长篇对话机器人现在显存贵的要命 Space 能让普通设备也能跑大模型省钱又实用有啥副作用吗有点它需要 CPU 和 GPU 频繁通信虽然优化的不错但还是有开销
而且 CPU 内存也得够大不然放不下完整缓存但整体看这个减肥术很成功的最后一篇是 Time after timedeep Q is an estimationfor interventions on when and what to do 这标题听着像首歌讲的是啥
确实挺失意这篇是关于在不规则时间里做决策的比如医生啥时候给病人用药或者金融里啥时候买股票以前的方法要么把时间切成块要么干脆忽略实际的重要性这次他们提出了 EDQ 算法全称是最早分
分歧 Q 评估专门解决啥时候和做啥的问题听着很复杂它咋工作的其实挺巧妙他们用深度 Q 学习结合 Transformer 模型盯着观测数据和目标策略的分歧点也就是第一次不一样的地方通过地规计算评估不同时机的效果
比如在医疗里他能算出早上用药和晚上用药哪个更好那他跟以前的方法有啥不一样以前的方法要么强行把时间分成固定段容易失真要么得建个复杂的世界模型特别费劲 EDQ 不用建模型直接从数据里学还能处理不规则时间灵活又准这能用在哪呢医疗和金融是主力军比如肿瘤治疗 EDQ
能帮医生挑最佳给药时间在股市能估算啥时候买卖收益最高实验里他在生存预测和肿瘤模拟上都比老方法强听着像时间魔法有啥短板吗有他依赖一些英国假设如果现实数据不满足可能不准而且实现起来有点复杂需要调参高手不过对于动态决策他真是开了个好头太棒了这些研究不仅技术牛还贴近生活听众朋友们你们觉得哪个最有趣
欢迎留言告诉我们下期太快报再见啊再见期待下次跟大家聊更多 AI 新鲜事