We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:LLM免训练能看会听、让AI对话更自然

AI前沿:LLM免训练能看会听、让AI对话更自然

2025/2/1
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive Transcript
People
小T
小爱
Topics
小爱:我参与了对多篇AI论文的解读,其中Meta AI提出的MILS框架最令人印象深刻。它能够赋予大型语言模型(LLM)多模态能力,无需任何训练,即可处理图像、视频和音频等多种信息。这颠覆了传统多模态模型需要海量数据训练的模式,充分展现了LLM强大的推理能力和涌现能力。MILS通过生成器和评分器的迭代机制,让LLM在无需额外训练的情况下,就能在图像视频音频字幕生成甚至图像编辑等各种任务上展现出惊人的零样本能力,甚至在某些任务上超越了之前那些需要大量训练的零样本方法。这表明我们可能低估了大型语言模型的潜力,它们不仅仅是语言大师,更是通用的问题解决者。MILS的无需训练特性也大大降低了多模态AI技术的门槛,让更多人可以轻松地利用大语言模型的多模态能力。此外,我们还讨论了如何改进人机对话的自然性。研究表明,在人机文本交互中引入文本重叠机制,模仿自然人际对话中的插话、抢话等行为,可以显著提升沟通性、沉浸感和互动速度。这提示我们,在设计人机交互系统时,应该更多地从人的角度出发,理解人类的沟通习惯和需求。 小T:我参与了对多篇AI论文的解读,其中关于能量模型(EBM)的研究成果令人瞩目。传统的EBM训练困难,因为需要计算难以处理的配分函数。而新研究提出的联合学习方法,巧妙地将计算配分函数的问题转化为学习配分函数的问题,并设计了双重随机梯度下降算法来高效训练模型。这大大提升了EBM的可应用性,使其能够在多标签分类、标签排序等任务中发挥更大作用。此外,我们还探讨了如何提高大型语言模型生成内容的多样性和推理效率。研究发现,在大型语言模型的后训练阶段,例如强化学习和偏好优化,生成内容可能会变得千篇一律,缺乏多样性。为此,提出的多样化偏好优化(DivPO)方法,通过选择高质量但不太常见的回复作为优选样本,有效提升了生成内容的多样性,同时保持了生成质量。而在推理效率方面,提出的推理预算约束策略优化(IBPO)算法,通过让模型感知问题的难度并自适应调整推理长度,在有限的资源下最大化解题效用,显著提升了大语言模型在受控推理预算下的性能。这为我们解决大语言模型的效率问题提供了新的思路,未来可能会出现更多更聪明、更高效的大语言模型。

Deep Dive

Shownotes Transcript

听众朋友们大家好欢迎收听最新一期太快报我是小爱大家好我是小 T 今天我们为大家精心挑选了五篇最新的 AI 论文带大家一起尝鲜看看 AI 又解锁了哪些新技能今天的太快报绝对干货满满信息量巨大我们继续聊到让 AI 眼观六路耳听八方的多模态技术也会探讨如何让 AI 更懂人情世故进行更自然的人机对话听起来就超 exciting

那我们就废话不多说赶紧进入今天的 AI 前沿速递环节吧首先让我们聚焦第一篇论文它的标题就非常吸睛叫做 LLM can see and hear without any training 大语言模型竟然能看能听还无需训练

小 T 这是真的吗这听起来有点像魔法小艾你说的没错这确实有点黑科技的味道这篇来自 Meta AI 的研究论文确实提出了一个非常颠覆性的方法叫做多模态迭代大语言模型求解器简称 MILS 简单来说就是让大型语言模型也就是大语言模型在完全没有经过专门训练的情况下就能理解和处理图像视频音频等多种感官信息哇

完全无需训练那他们是怎么做到的我们知道之前的多模态模型不都是要用海量的数据去喂养吗没错传统的路子是这样的但 MILS 的厉害之处就在于它完全另辟蹊径它巧妙地利用了大语言模型本身就拥有的强大的推理能力你可以把它想象成 MIL

不是直接教大语言模型看和听而是教他如何利用已有的知识和能力去解决看和听的问题这怎么理解呢感觉更懵了没关系我给你打个比方假设你是一个语言天才只学过文字但从来没学过画画

现在有人给你一张画让你描述画的内容虽然你没学过绘画但你可以运用你的语言理解能力和推理能力去分析画面的构图色彩线条等等然后用文字描述出来 NYL 思路就有点类似他让大语言模型扮演语言天才的角色然后通过一个叫做生成器评分器的框架让大语言模型迭代的生成和改进对多模态信息的理解生成器评分器

听起来有点像左右互搏的意思这个比喻挺形象生成器就是我们熟悉的大语言模型它负责根据输入的信息生成可能的答案或描述而评分器则是一个现成的已经训练好的多模态模型它可以评估生成器给出的答案是否合理准确

然后 NALS 会让大语言模型不断地根据评分器的反馈调整和优化自己的答案就像学生写作文老师批改学生在根据老师的意见修改一样最终得到一个比较好的结果我好像有点明白了也就是说

MILS 就像是给大语言模型配备了一个外脑让他可以借助外脑的感知能力来理解多模态信息可以这么理解更神奇的是 MILS 不需要对大语言模型进行任何额外的训练就能在图像视频音频字幕生成甚至图像编辑跨模态

算术等各种任务上展现出惊人的零样本能力论文里说 MILS 在某些任务上甚至超越了之前那些需要大量训练的零样本方法有些情况下还能和那些科班出身的模型拜拜手腕呢这也太不可思议了吧

那 MILS 的出现意味着什么呢?这意味着我们可能低估了大型语言模型的潜力。原来它们不仅仅是语言大师,更是通用的问题解决者。只要我们能巧妙地设计框架,就能激发大语言模型的涌现能力,让它们在没有明确训练过的领域也能大方一彩。

而且 MILS 的无需训练的特性也大大降低了多模态 AI 技术的门槛,让更多人可以轻松地利用大语言模型的多模态能力。听起来真是太棒了,感觉 AI 又向前迈进了一大步。接下来我们再来看看第二篇论文,题目是 Beyond Turn-taking Introducing Text-Based Overlap into Human-LM Interactions。

超越轮流发言文本重叠这又是在说什么呢这篇论文关注的是人际对话的交互方式我们平时跟聊天机器人对话都是一问一答非常规矩就像在排队一样你一句我一句轮流发言这种方式虽然清晰但不够自然也不像我们日常的人际对话确实是这样我们跟朋友聊天的时候经常会插话抢话或者负荷这才是更自然的对话方式嘛

没错,这篇论文的作者就发现,即使在文本聊天这种看似比较冷静的交流方式中,人们也会本能地使用重叠行为。比如对方还没说完,你就抢先回应,或者用对这样的词语来表示赞同和理解。但现在的聊天机器人完全不支持这种重叠行为,还是 regit 的轮流模式。那这篇论文就想改变这种状况。

是的,他们提出了一个很有趣的想法,就是在人机文本对话中引入文本重叠机制,让 AI 也能像真人一样,进行更自然更流畅的对话。他们还开发了一个叫做 Overlapped 的聊天机器人原型,这个机器人就能实现抢先回答复合被打断时删除回复等重叠行为。听起来好智能,那用户体验怎么样呢?

他们做了一个用户研究对比了 overlabot 和传统的轮流对话机器人结果发现用户普遍认为 overlabot 更有沟通性更沉静互动也更快速感觉就像真的在跟人聊天一样太棒了如果聊天机器人都能像 overlabot 这样人机交互体验肯定会大大提升

那这项研究对我们有什么启发呢?这项研究告诉我们,模仿人类自然的对话方式,对于提升人机交互体验至关重要。我们不能总是用机器的思维来设计人机交互,而应该更多地从人的角度出发去理解人类的沟通习惯和需求。文本重叠只是一个开始,未来的人机对话系统肯定会越来越懂你,越来越像人。非常期待,接下来我们再来关注第三篇论文。

题目是 Joint Learning of Energy-Based Models and Their Partition Function 这个标题听起来就有点高深莫测的感觉了能量模型配分函数小 T 你能用大白话给我们解释一下吗别怕虽然名字听起来有点吓人但其实核心思想还是挺好理解的这篇论文研究的是能量模型英文简称 EBM 这是一种描述概率分布的模型你可以把它想象成一个能量场

能量越低的地方概率越高能量越高的地方概率越低能量廠听起来有点像物理学的概念是的 EBM 的灵感就来源于物理学它可以用来描述各种各样的数据分布比如图像文本音频等等 EBM 的优点是非常灵活可以捕捉数据中复杂的依赖关系但它的缺点是训练起来比较困难因为需要计算一个叫做配分函数的东西配分函数又是什么

听起来更复杂了配分函数你可以简单理解成一个归一化常数在概率模型中我们需要把概率值归一化到 0 到 1 之间这样才能保证概率的总和等于 1 而配分函数就是用来做这个归一化的但是对于复杂的 EBM 来说配分函数通常很难计算甚至根本算不出来这就成了 EBM 发展的一个蓝鹿虎那这篇论文是怎么解决这个难题的呢

这篇论文提出了一个非常巧妙的方法叫做联合学习他们不直接去计算配分函数而是让模型学习配分函数他们用神经网络来参数化能量模型和对数配分函数

然后同时学习这两个东西就像一石二鸟既学到了能量模型又学到了配分函数学习配分函数这怎么可能配分函数不是一个数学公式吗也能学习吗是的这就是这篇论文的创新之处他们把计算配分函数的问题转化成了学习配分函数的问题

他们还设计了一种叫做双重随机梯度下降的算法来高效的训练这个联合模型更厉害的是他们证明了这种方法在理论上是可行的而且在实践中也表现出色听起来好厉害那这项研究有什么意义呢这项研究大大提升了 EBM 的可应用性以前 EBM 因为配分函数这个难题很难在实际问题中应用但有了这篇论文的方法我们就可以更方便更高效的训练 EBM

让 EBM 在多标签分类标签排序等各种任务中发挥更大的作用而且联合学习的思想也很有启发性可以应用到其他类似的概率模型中接下来我们再来看看第四篇论文题目是 Diverse Preference Optimization 多样化偏好

这个多样性又是指什么呢?这篇论文关注的是大型语言模型也就是大语言模型生成内容的多样性问题我们知道现在的大语言模型越来越强大可以生成各种各样的文本比如文章代码对话等等但是研究人员发现大语言模型在经过一些后期的训练方法比如强化学习偏好优化之后生成的内容可能会变得千篇一律缺乏多样性千篇一律

你是说大语言模型生成的内容都变得很模板化没有个性了吗可以这么理解就像我们平时用一些写作助手生成的内容虽然流畅但总是感觉缺少一些惊喜缺少一些创意尤其是在创造性任务比如角色扮演故事写作中多样性就显得尤为重要谁不想看到 AI 生成的故事都是一个套路角色都长的一个模样吧那肯定很 boring

那这篇论文是怎么解决这个问题的呢这篇论文提出了一个叫做多样化偏好优化英文简称 diet type code 的方法

它的核心思想是在训练大语言模型的时候不仅要让它生成高质量的内容还要让它生成多样化的内容就像我们培养孩子不仅要让他成绩好还要让他全面发展有自己的个性和特长多样化偏好优化听起来有点抽象具体是怎么操作的呢 DAPO 的关键在于如何选择偏好

在传统的偏好优化方法中我们通常会比较两个模型生成的回复选择更好的那个作为优选样本更差的那个作为列选样本但 Depo 的做法有点不一样它会先收集一批模型生成的回复然后考察这批回复的多样性它会选择那些高质量但不太常见的回复作为优选样本

选择那些低质量且更常见的回复作为列选样本你是说 Dipol 会鼓励模型生成更稀有但仍然优秀的内容是的你可以把 Dipol 想象成一个伯乐它不只看中最优秀的千里马也会挖掘那些有潜力但比较小众的好苗子

通過這種方式 Depo 就能引導模型生成更多樣化的內容同時保持生成質量實驗表明 Depo 在角色生成和故事寫作任務上顯著提高了生成內容的多樣性而且質量也沒有下降甚至還有略微提升這真是太厲害了

感觉 Depo 为我们打开了一扇新的大门让我们可以训练出既聪明又有个性的大语言模型最后我们再来看看今天的最后一篇论文题目是 Think Smarter Not HarderAdaptive Reasoning with Inference Aware Optimization 更聪明而不是更努力的思考自适应推理这又是在说什么黑话呢

这篇论文关注的是大型语言模型的推理效率问题我们知道大语言模型在解决复杂问题比如数学题的时候需要进行常练推理也就是一步一步的思考才能得出正确的答案但是研究人员发现现在的大语言模型有点用力过猛即使是面对一些简单的问题也会启动冗长且昂贵的推理过程这就有点像杀鸡用牛刀效率比较低你是说大语言模型不懂得偷懒

不会看在下饭可以这么说理想的大语言模型应该是聪明的它应该能够感知问题的难度然后自适应地调整自己的推理长度对于简单的问题用短推理就能搞定对于复杂的问题才需要长推理就像我们人类一样做简单的加法题心算一下就行了做复杂的微积分就要拿出纸笔一步一步地推导很有道理那这篇论文就想让大语言模型变得更聪明一点

是的,这篇论文提出了一个叫做推理预算约束策略优化英文简称 IBPU 的算法它的核心思想是让模型意识到推理预算的存在然后在预算约束下最大化自己的解题效用你可以把推理预算理解成计算资源或者时间 IBPU 的目标就是让大语言模型在有限的资源下尽可能高效地解决问题推理预算约束策略优化

听起来好复杂它是怎么实现的呢?IPO 的实现其实并没有想象中那么复杂它主要通过加权监督微调英文简称 SFT 来实现简单来说就是在训练大语言模型的时候根据问题的难度调整 SFT 的权重对于简单的问题用较小的权重鼓励模型用短推理解决对于复杂的问题用较大的权重允许模型用长推理

他们还提出了一个叫做自适应序列投票英文简称 AASE 的方法让模型生成不同推理长度的答案然后根据预算选择最合适的答案听起来好 clever 那 IBPO 的效果怎么样呢实验表明 IBPO 在 Math500 数据集上显著提升了大语言模型在受控推理预算下的性能在相同的推理预算下 IBPO 的性能远超传统的自洽性方法

這意味著 IBTO 不僅能提高大語言模型的推理效率還能提升大語言模型的解題能力哇哦 感覺 IBTO 就像是給大語言模型裝上了一個智能省電器讓大語言模型在保證性能的同時還能節能減排

这个比喻很形象 IBPO 的出现为我们解决大语言模型的效率问题提供了新的思路未来我们可能会看到更多更聪明而不是更努力的大语言模型它们既强大又高效还环保太棒了今天的太快报真是信息量爆炸我们一口气了解了五个 AI 领域的最新研究感觉脑洞大开收获满满是从无需训练的多模态模型到更自然的人机对话

再到更高效的概率模型更具多样性的生成模型以及更聪明的自适应推理模型这些研究都展示了 AI 技术的无限潜力没错感觉 AI 的未来真的是无可限量感谢小 T 今天的精彩解读也感谢各位听众朋友们的收听更多 AI 前沿资讯请继续关注太快报我们下期再见下期见拜拜