We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:从个性化偏好到高效推理

AI前沿:从个性化偏好到高效推理

2025/3/25
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
People
小T
小爱
Topics
小爱:我参与讨论了AI如何理解用户偏好、AI辅助设计和AI模型效率提升等议题。在AI理解用户偏好方面,我介绍了奖励特征模型(RFM),它通过学习共享特征和用户特定权重,快速捕捉个体偏好,比传统方法更能满足个性化需求,但同时也需要注意潜在的回音室效应。在AI辅助设计方面,我介绍了偏好引导扩散模型(PGDMO),它利用扩散模型从已有数据中生成多样化的最优设计方案,并通过偏好模型进行筛选,在设计质量和多样性方面优于传统方法,特别适合无法反复实验的场景。在AI模型效率提升方面,我介绍了2:4激活稀疏性方法,该方法通过减少Transformer模型中的计算量来提升训练和推理速度,几乎不影响精度。 小T:我参与讨论了AI如何理解用户偏好、AI辅助设计、AI模型结构优化和AI推理能力提升等议题。在AI理解用户偏好方面,我介绍了奖励特征模型(RFM),它能够有效解决传统强化学习方法中将所有人的意见平均化的问题,从而更好地满足个性化需求。在AI辅助设计方面,我介绍了偏好引导扩散模型(PGDMO),它能够在离线环境下从已有数据中找出最优的设计方案,并保证方案的多样性。在AI模型结构优化方面,我介绍了N维线性变换层(ND-Linear),它通过保留数据多维结构来提升模型性能和效率。在AI推理能力提升方面,我介绍了PANEL框架,它利用自然语言自我批评来提高大型语言模型在复杂推理任务中的准确性,并指出了该方法的难点在于AI需要学会写出靠谱的批评。

Deep Dive

Chapters
本节探讨了AI个性化的问题,介绍了奖励特征模型(RFM)如何通过学习共享特征和用户特定权重来快速捕捉个体偏好,提升AI的个性化能力。同时也指出了个性化可能带来的回音室效应。
  • 奖励特征模型(RFM)通过学习共享特征和用户特定权重来捕捉个体偏好
  • RFM在用户意见差别很大时表现优于其他方法
  • 个性化可能带来回音室效应

Shownotes Transcript

大家好,欢迎来到太快报,我是小爱。大家好,我是小 T。咱们这就开始第一个话题,AI 如何读懂我们的心。我先问个问题,现在的 AI 比如聊天机器人,是不是有时候不太懂我想要什么,感觉他给的回答总是差不多,但不够贴心?你说的太对了,这其实是现在很多 AI 系统的一个痛点。

传统的强化学习方法比如通过人类反馈来训练 AI 会把所有人的意见混在一起取个平均值这就好比做披萨有人喜欢辣的有人爱甜的结果 AI 端上来一个杂酱披萨谁都不满意最近的一篇研究就专门解决这个问题他们提出了一个叫奖励特征模型的方法简称 RFM 奖励特征模型听起来有点玄乎能不能给我讲的简单点

当然想象一下 AI 就像个大厨他先学会了一堆基本的口味秘方比如酸甜苦辣这些特征这些是所有人共享的然后他会根据你的反馈给你调一个专属的味道配方比如你喜欢多点甜少点辣

这个过程分两步第一步他从一大堆数据里学会这些基本口味第二步只要你随便说几句我喜欢这个或者我不喜欢那个他就能快速调整出你的专属口味厉害的是这种方法特别快只需要很少的反馈就能做到哇这不就像是给我量身定制一个 AI 助手吗那他比以前的方法强在哪

强在个性化以前的 AI 是一刀切把所有人的偏好平均化遇到意见分歧大的时候就容易翻车而 RF 能抓住每个人的独特喜好实验里他们发现当用户意见差别很大时

RFM 比其他方法甚至比一些大型语言模型的表现都要好比如你想要 AI 帮你写一篇幽默的文章而我想要严肃的分析 RFM 就能分别给我们想要的结果这听起来真不错那有没有什么要注意的地方有研究者提到这种个性化可能会带来回音式效应就是 AI 只给你看你喜欢的东西可能会让你的视野变窄所以用的时候的小心别让 AI 把我们逛坏了

明白了个性化是把双刃剑那接下来咱们聊点别的吧比如 AI 还能在哪些地方变得更聪明我听说 AI 还能帮我们设计东西比如新产品新材料什么的最近有什么新鲜的研究吗研究团队搞了个偏好引导扩散模型简称 PGDMO

O 专门用来解决多目标优化的难题简单说就是让 AI 在离线环境下从一堆已有数据里找出最优的设计方案离线环境多目标优化听起来有点复杂能不能举个例子没问题假设你是个工程师要设计一款新手机你希望它既轻薄又耐用含的便宜这三个目标互相冲突

因为轻薄可能需要昂贵的材料耐用又可能让它变重传统方法要么不停试错要么建个复杂的预测模型而 PGDMO 的思路很巧妙它用一种叫扩散模型的技术像个艺术家一样从一堆旧设计里画出新的方案然后通过一个偏好模型来判断哪些设计更好

最后挑出既轻薄又耐用还便宜的完美组合这也太酷了吧那他是怎么判断哪个设计更好的他训练了一个偏好模型这个模型就像个裁判能看出一堆设计里谁比谁强比如他会说这个设计比那个好

因为它更轻而且差不多一样耐用更厉害的是它还能保证这些设计不多长一个样保持多样性这样你就不会拿到一堆差不多的方案而是有很多不同的选择多样性这个点真有意思那它比以前的方法强在哪儿

实验证明它在设计质量和多样性上都比传统方法强比如有个指标叫超体积用来衡量设计的整体优秀程度 PGD MOU 的表现特别亮眼而且它不需要实时试错只靠已有数据就能工作非常适合那种没法反复实验的场景比如太空材料的研发

听起来很实用有没有什么不足的地方有它现在还不能很精细地控制目标之间的平衡比如你特别想要便宜多过金宝它还做不到完全听你的未来可能需要再加点功能让它更灵活明白了 AI 设计师还能再进化一下那接下来咱们聊点更基础的东西吧

我知道 AI 模型里有很多零件比如神经网络的层最近有没有什么新的零件特别厉害还真有 有个团队提出了一个叫 ND-linear 的东西全称是 N 维线性变换层简单说它是线性层的一个升级版能让 AI 更好的处理复杂数据比如图片 视频时间序列这些线性层我知道是神经网络的基础部件

传统的线性层有个毛病就是它会把数据压扁成一维的比如一张图片它本来是宽和高两个维度但传统方法会把它拉成一条长线这样就丢掉了很多空间信息

ND-Linear 不压扁它会沿着数据的每个维度分别处理保留了这些结构信息打个比方传统方法是把一张地图揉成一团 ND-Linear 是把地图摊开仔细看每条路这么说它能看得更清楚

对 因为它保留了数据的本来面貌所以能抓住一些传统方法漏掉的细节实验里他们把 ND-linear 放进各种模型比如 Transformer 转机网络结果发现性能提升了不少还用了更少的参数图像分类 文本分析甚至预测股票趋势它都能干得更好

少用参数还更厉害这不就是省油的灯吗那它有没有什么局限目前来看它特别适合有明显结构的数据比如图片或者序列但如果数据之间的关系特别复杂可能还需要跟其他技术搭配使用而且它的理论基础还在完善中未来可能会有更多惊喜感觉这个 ND-Linear 像个全能选手

那咱们再聊点 AI 的思考问题吧我有时候觉得 AI 回答问题很聪明但一道复杂问题比如数学题它就容易出错最近有没有什么方法能让 AI 自己发现问题有研究团队提出了一个叫 panel 的方法用自然语言自我批评来帮 AI 提高推理能力简单说就是让 AI 自己给自己挑毛病自己挑毛病这怎么做到的

想象一下你再解一道数学题每走一步旁边有个朋友会说这里你算错了因为漏了个副号 panel 就是让 AI 自己当这个朋友每一步推理后他会用自然语言写一段批评比如这个步骤不合理因为忽略了某某条件

然后根据这些批评调整方向最后挑出最好的推理路径这不就像给自己当老师吗那他比以前的方法好在哪以前的方法是用数字评分比如给每个步骤打个分但是太粗糙了没法说清楚错在哪而 panel 用文字能详细说明问题在哪这样 AI 就能更聪明的改进实验里他们发现 panel 在数学和科学问题上表现特别好尤其是复杂题目准确率提升很明显

这听起来真聪明有没有什么难点难点在于 AI 的学会写出靠谱的批评如果批评本身不准那就帮倒忙了不过他们发现模型越大批评的质量越高所以大模型用这个方法效果更好看来 AI 也有自行的潜质那最后一个话题咱们聊点速度上的突破吧现在 AI 模型越来越大跑起来是不是也越来越慢有没有什么办法让它快一点

但是有研究团队提出了一个叫 2:4 激活吸收的方法能让 Transformer 模型在训练和推理时速度提升不少 2:4 激活吸收听起来像个密码能不能解码一下好解这个方法的核心是让模型的计算瘦身 Transformer 里有个关键部分叫潜窥网络占了很大计算量他们发现用一种叫 Square-to-relude 的激活函数时很多计算结果是 0 这些 0 其实没必要算

于是他们设计了一个 2:4 稀疏模式每四个数里挑两个最重要的算,其他的挑过这样一来计算量少了速度就能提升最高 1.3 倍这有点像跑步时甩掉多余的行李那效果怎么样?效果很棒实验里他们发现这种方法几乎不影响模型的精度但在速度上尤其是大模型和大批量数据时提升特别明显而且它还能用在现代 GPU 上硬件支持的很到位

下期再见拜拜