大家好 欢迎收听太快报我是主持人小爱这次我们要聊的主题特别酷从设计生命里的蛋白质到让手机变得更聪明涵盖了六项前沿突破小 T 你今天给我们准备了什么新鲜内容嗨 大家好 我是小 T 这次我们要聊六篇论文涉及 AI 在生物数据预测 分子模拟语言模型优化和设备应用上的创新
每一篇都有让人惊喜的点,比如用 AI 生成蛋白质骨架,解决数据不公平,甚至把复杂模型塞进手机。我会尽量用大家都能听懂的方式讲清楚这些研究的妙处和潜力。听起来就很带劲,那咱们赶紧开始吧。第一篇是关于蛋白质的 protein,能不能先给我们讲讲这是怎么回事?
好 咱们先聊 protent 这项研究 开发了一个叫 protend 的工具用来生成蛋白质的骨架结构 蛋白质就像人体的零件 形状不同 功能也不同比如有的负责消化 有的对抗病毒 过去设计蛋白质靠实验又卖又贵 但 protend 用 AI 直接画出这些零件速度快 还能定制感觉像 AI 变成了生命设计师 它是怎么
他用了一种叫流模型的技术简单说就像让 AI 学会蛋白质的折纸术特别的地方有几个第一它能生成超长的蛋白质最长到 800 个单元以前最多也就几百个相当于从大小积木升级到建大厦
第二它有个遥控器可以告诉 AI 我想要这种形状的蛋白质比如指定某种折叠类型 AAI 就按要求生成还有个意外发现他们没用上的物理规则严格型模型而是用了更自由的架构结果效果反而更好这就像让画家随手画画居然画出了大师级作品太神奇了那这个能干嘛
用处很大,比如造新药,科学家可以用它快速设计特定功能的蛋白质,缩短研发时间。他们用了 2100 万个蛋白质数据训练,比以前多几十倍,生成的东西几乎 99%都能用,未来可能更快找到治病的方法,甚至创造全新的人造蛋白质。听起来像科幻电影有没有什么难点?有几个。
比如要求太具体时生成的多样性会下降点还只能生成结构没包括序列信息未来加进来会更强还有训练需要超级计算机一般人用不起的想办法简化明白了 protein 三个天才设计师还在成长中接下来聊聊那个不平衡回归吧听起来挺复杂能简单讲讲吗没问题这篇研究解决的是数据不平衡预测的问题
比如 AI 预测年龄 20 到 30 岁的人数据多,70 岁以上数据少,AI 就容易偏心,对老年人预测不准,这叫不平衡回归。哦,就像老师只关注好学生忽略差生怎么解决呢?他们用了个叫 S-R-Cell 的方法引入几何约束,想象 AI 的思维是个大球,他们让数据像毛线一样均匀缠满球面,不挤在一块,环的缠的平滑不乱。
这样 AI 就不会只看好数据多的地方而是公平对待所有数据他们测试了预测年龄、文本相似度等结果在数据少的地方准确率明显提升这比喻真好懂,效果如何?很棒,尤其对稀少数据效果好还能跟其他方法搭配像个万能助手适用于图像、文本甚至数学函数预测
厉害有什么不足吗主要是针对单一数值预测多维数据比如身高体重一起预测环的改进计算也稍微复杂点未来可以优化一下感觉像给 AI 加了个公平滤镜下一个话题那个分子动力学听起来很科学能讲讲吗这篇研究很有趣他们做了个叫 MDET 的工具模拟分子怎么动分子动力学就像拍分子动画看原子怎么跳舞
传统方法很复杂塞满物理规则他们就试着用最简单的 Transformer 看看行不行听起来像偷懒却成功了怎么做到的他们拿了一个现成的 Transformer 几乎没改动通常模型会硬塞旋转不变
和能量守恒规则他们没管这些而是让 AI 从数据里自己学比如通过随机旋转数据 AI 学会了分子转而转去还是同一个分子直接预测力不算能量小分子居然也能差不多守恒真意外效果好吗
出乎意料的好在多个测试里速度快准确性高短时间模拟还很稳定不过大分子或长时间模拟是能量会飘稳定性不够像个短跑冠军耐力含的链那能干嘛适合快速模拟小分子比如研究药物怎么跟身体互动因为简单科学家可以拿来试错不过他们提醒稳定性是大问题可能比物理规则更关键原来简单也有大用接下来聊语言模型那个吸收空间操控是什么
这篇研究提出了 SAS 意思是吸收激活操控语言模型有时会乱说或跑偏 SAS 就像给他装个方向盘引导他按我们想要的方向走他们在吸收空间里找关键点用对比例子比如真话和胡话调整模型行为有点像调教 AI 怎么操作
他们用西数编码器找出跟行为相关的开关比如加个真实开关模型就少瞎编测试里真实性真的提高了还能组合多个开关同时控制语气内容挺灵活太酷了有什么挑战效果好但得靠预训练的编码器质量不行就失灵现在是固定调整
未来呢动态条就更厉害了像给 AI 加了个遥控器接下来聊手机上的 AI 那个 COSMOES 是什么 COSMOES 这项研究想把专家混合模型装进手机这种模型像个专家团每人管一块但太大他们就做了个紧凑版叫 COSMOES
手机跑复杂 AI 怎么做到的两招一是把专家瘦身用分解技术变轻量二是加了个训练方法减少专家切换速度快了 50%结果比同等计算量的普通模型强 2.35 个百分点训练还快 5 到 10 倍真厉害能用在哪儿
比如手机助手能更聪明省电还保护隐私不过优化速度时性能略降未来的平衡好像手机里的迷你智库最后一个 RSQ 是什么 RSQ 全称是旋转缩放量化语言模型很强但太大他们想压缩到低容量还能用好
核心是重要信息的重点保护怎么找重要信息他们发现注意力高的词最关键像句子里的大 V 先调整权重减少干扰再按重要性放大这些词最后压缩结果在长文本和低容量下效果特别好像抓重点减肥有什么不足很强但算重要性有点费力参数也对调味来简化点会更实用明白了 ISQ 让 AI 瘦身不失智
太精彩了
这些研究就像 AI 世界的探险灯塔既有趣又有用谢谢小 T 的讲解也感谢大家收听下期太快报再见下期见拜拜