We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:幻觉竟成神助攻?拓扑结构解锁AI大脑潜能

AI前沿:幻觉竟成神助攻?拓扑结构解锁AI大脑潜能

2025/1/25
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
People
小T
小爱
Topics
小爱:我认为这篇论文最令人惊讶的地方在于它颠覆了我们对AI幻觉的传统认知。我们过去总是将幻觉视为AI的缺陷,需要避免。但这篇论文却发现,在药物发现领域,幻觉反而能提升模型性能,这促使我们重新审视AI的‘缺陷’,并探索其潜在的积极价值。 我认为,大语言模型的‘幻觉’可能包含一些看似无关但可信的信息,这些信息能增强模型的信心,使其预测更大胆准确。同时,我们也应该辩证地看待AI的‘缺陷’,例如‘幻觉’,在某些特定领域,它可能具有积极价值。 关于视频生成模型的改进,我认为通过构建大规模的人类偏好数据集,并训练视频奖励模型,可以有效利用人工反馈改进视频生成模型,显著提升视频的视觉质量、运动质量和文本对齐度。 最后,关于模型效率提升,我认为应该重新审视传统模型的设计理念,善于借鉴和融合不同模型的优点,才能让模型焕发出新的生命力。 小T:这篇论文最令人震惊的发现是,在药物发现领域,利用包含‘幻觉’的提示信息,反而能提高大语言模型的性能,甚至超过使用准确信息的模型。具体来说,对于Lama 3.1 8B模型,使用幻觉文本后,药物特性分类的准确率ROCAUC值提升了惊人的18.35%。 关于拓扑结构对自组织能力的影响,我认为生物系统的层级拓扑结构是其强大自组织能力的基础,AI模型的设计可以借鉴这种结构,以提升AI的长程连贯性和复杂推理能力。我们可以尝试构建具有层级结构、模块化连接的AI模型,让信息在网络中更有效地流动和整合。 关于状态空间模型(SSM),我认为可以将其视为一种特殊的卷积神经网络(ConvNet),并利用卷积神经网络的优化技巧来提升SSM的效率。基于SSM架构,无需传统RNN、CNN或注意力机制,即可构建出在音频处理任务上表现优异的神经网络。 最后,关于注意力机制的优化,我认为大型语言模型的注意力机制中,不同组件(Query、Key、Value)对模型性能和效率的影响不同,可以采用差异化策略进行优化。提出的DiffQKV注意力机制显著提升了大型语言模型在长文本场景下的推理效率,基于此构建的SIGMA模型,在系统领域的任务上性能超越了GPT-4。

Deep Dive

Chapters
这篇论文研究了AI模型的“幻觉”在药物发现领域的应用。研究发现,在特定任务中,AI模型产生的“幻觉”信息反而能提升模型性能,这颠覆了我们对AI缺陷的传统认知。研究人员解释了这种现象,并探讨了其局限性和未来研究方向。
  • AI模型的幻觉在药物发现领域可能提升模型性能
  • 幻觉信息可能包含无关但可信的信息,增强模型预测的信心
  • 需要重新审视AI缺陷,辩证看待幻觉的潜在积极价值

Shownotes Transcript

听众朋友们大家好 欢迎收听最新一期的太快报 我是主持人小爱大家好 我是小 T 很高兴又和大家见面了小 T 今天我们太快报又为大家搜罗到了哪些 AI 领域的前沿猛料呢看标题就感觉信息量爆炸 幻觉 进程神助攻 拓扑结构解锁 AI 大脑潜能这都什么跟什么 听起来就充满了反常识的刺激感

没错,今天的这几篇论文确实都挺有意思,甚至可以说是颠覆我们一些固有的认知。他们的研究方向非常多元,但都指向一个共同的目标,如何让 AI 更强大,更高效,甚至更像人。听起来就非常令人期待了,那我们就先从哪个方向开始快报呢?我们先从最反常识的开始吧。今天的第一篇论文就非常有意思,题目就非常抓人眼球,叫做《幻觉》。

可以提高大型语言模型在药物发现中的表现幻觉可以提高表现没搞错吧我们平时不都说 AI 的幻觉是缺点吗怎么还能提高性能呢这简直是颠覆认知施小爱这就是这篇论文最反常识的地方我们一直以来都认为像 ChatGPT 这样的大语言模型的幻觉也就是一本正经的胡说八道是需要极力避免的

但这篇论文却反其道而行之提出在药物发现这个非常特殊的领域幻觉反而成为一种优势帮助模型更好地完成任务药物发现吗幻觉怎么能在这么严肃的科学领域起作用呢这太不可思议了

这就是这篇研究的巧妙之处研究人员发现在药物发现领域有时候需要一些创造性的联想和发散思维而大语言模型的幻觉某种程度上就可以被看作是一种不受约束的自由联想嗯 有点像投稿风暴对 可以这么理解研究人员就做了一个很有意思的实验他们让大语言模型先幻想一些分子的自然语言描述这些描述可能包含一些

不準確的信息,也就是幻覺然後他們把這些包含幻覺的描述和分子的 Smiles 字符串一種分子結構的簡潔表示方法一起作為提示信息輸入給另一個用於藥物發現的大語言模型

等等,你是说他们故意给模型喂错误的信息,这能行吗?一开始我也觉得很奇怪,但实验结果却非常惊人。他们用了 7 个不同的大语言模型,在 5 个药物发现数据集上进行测试,结果表明,使用了包含幻觉描述的提示的模型性能,竟然比只使用 Smiles 字符串,甚至比使用准确参考描述的模型还要好。真的假的幻觉不仅没帮到忙,反而成了神助攻。

没错 特别是对于 Lama 3.1 8B 这个模型使用幻觉文本 后药物特性分类的准确率 ROCAUC 值竟然提升了惊人的 18.35%

还有 GPT-4O 生成的幻觉效果也特别好能持续为各种模型带来性能提升哇 这太出乎意料了那他们是怎么解释这个现象的呢为什么幻觉反而有帮助研究人员分析后认为这可能是因为幻觉文本中包含了一些无关但可信的信息例如模型可能会幻想某种分子具有潜在的应用场景等等这些信息虽然是幻觉但听起来却煞有介事反而增强了模型的信心

让模型在预测时更加大胆和准确无关但可信的信息这有点玄妙就像是瞎猫碰上死耗子歪打正着了可以这么理解但更深层次的原因可能在于药物发现本身就是一个需要创造性和发散性思维的领域幻觉虽然是错误的信息但它也代表了一种突破常规的思考方式

反而可能激发模型的灵感帮助他找到新的解决方案听起来有点道理就像我们人类的创新有时候也来自于一些看似不靠谱的奇思妙想那这个研究有什么局限性吗当然这里研究目前主要是在药物发现的分类任务上验证的还不清楚是否能推广到其他类型的药物发现任务以及其他需要创造性的领域

而且对于幻觉的质量控制如何引导模型生成更有用的幻觉也是未来需要研究的方向明白了那从这个研究中我们能得到什么启发呢我觉得最大的启发就是要重新审视 AI 的缺陷我们不应该简单的把幻觉这类问题看作是 AI 的负面 bug

而应该辩证地看待它们深入挖掘其潜在的积极价值在某些特定领域例如需要创造性思维的领域幻觉可能恰恰是激发模型灵感的关键很有意思的观点看来以后不能一棍子打死幻觉了说不定在某些时候它还真是个宝藏呢

是 接下来我们再来看一篇题目听起来就比较硬核叫做拓扑约束对局部相互作用系统自组织的影响拓扑自组织听起来就很高深莫测这是要研究啥简单来说这篇论文想探讨的是为什么有些系统比如生物系统能够展现出高度的

又是生物系统又是 AI 模型这跨度有点大但也不止

他们认为一个系统内部各个组件之间相互作用的网络结构也就是拓扑结构是决定系统自组织能力的关键因素你是说像地图一样的结构吗

可以这么理解,但更抽象一点。你可以想象成一个社交网络,有些人之间联系紧密,形成小团体,小团体之间又互相联系,形成更大的社群。这种网络连接的方式就是一种拓扑结构。嗯,有点感觉了。

那拓扑结构怎么影响自组织呢?研究人员用数学模型分析了不同拓扑结构的系统他们发现像一维链状结构的系统例如早期的语言模型就很难维持长程的有序状态这就好比一条直线信息只能单向传递很容易断裂和混乱一维链状结构听起来确实有点脆弱

但像生物系统中常见的层级网络结构都能够支持更复杂的自组织模式这种结构就像一个树状结构信息可以多方向多层次的传递和整合更容易形成全局的秩序和连贯性层级网络结构听起来就像我们的大脑神经网络没错研究人员认为生物系统之所以能够展现出强大的自组织能力很大程度上要归功于其精巧的层级拓扑结构

而我们现在的大语言模型在拓扑结构上还比较简单可能限制了他们处理复杂任务的能力那这个研究对 AI 的未来发展有什么启示呢这个研究启发我们要提升 AI 的长程连贯性和复杂推理能力可能需要借鉴生物系统的拓扑结构设计更复杂的网络架构例如可以尝试构建具有层级结构模块化连接的 AI 模型让信息在网络中更有效的流动和整合

听起来很有道理看来 AI 的未来发展还要向生物学习是的接下来我们再换个方向看看计算机视觉领域的一篇论文题目是通过人工反馈改进视频生成视频生成现在 AI 生成视频已经很厉害了还能怎么改进现在的 AI 视频生成模型虽然能生成看似逼真的视频但还是存在一些问题比如

人工反馈是怎么反馈的呢?人类来评价 AI 生成的视频好不好吗?没错,研究人员做了一件非常硬核的事情,他们考虑了人工反馈的效果,

构建了一个大规模的人工偏好数据集里面包含了 18.2 万条人类对 AI 生成视频的偏好标注这些标注不仅评价了视频的视觉质量还评价了运动质量和文本对其度非常细致

是,这确实是一个巨大的工程有了这个数据集研究人员就训练了一个视频奖励模型叫做 V2Word 这个模型可以学习人类的偏好对 AI 生成的视频进行打分分数越高就代表视频质量越好越符合人类的喜好用奖励模型来指导视频生成

听起来有点像调教 AI 可以这么理解研究人员利用这个 Vidual World 的模型对现有的视频生成模型进行了微调让他们生成的视频朝着高奖励的方向优化他们还提出了几种新的算法比如 FlowDPO 和 FlowN2G 来更有效地利用人类反馈改进视频生成实验结果表明效果非常显著

通过人工反馈微调后的视频生成模型,在视觉质量、运动质量和文本对齐度方面都有了明显的提升,生成的视频更流畅、更自然,也更符合人类的审美。太棒了,看来人类的审美还是很重要的,AI 最终还是要服务于人类的。是的,而且这个研究还提出了一个很有意思的噪声奖励引导技术 Flow NRG。

它可以让用户在推理阶段也就是实际生成视频的时候根据自己的个性化需求调整视频的风格和质量非常灵活和用户友好个性化定制视频

听起来就很有意思那这个研究有什么不足之处吗研究人员也指出了他们的方法还存在一些局限性比如 flow dpo 算法可能会出现过拟合问题需要进一步改进而且目前的奖励模型还存在 reward hacking 的风险也就是模型可能会为了获得高分而生成一些投机取巧的视频但实际上人类并不喜欢 reward hacking

这有点像作弊可以这么理解所以未来还需要研究更鲁棒更可靠的奖励模型来更好的引导 AI 视频生成明白了看来 AI 视频生成还有很大的提升空间当然接下来这篇论文的题目也很有意思叫做让 SSM 成为 Convenient 用最优张量缩并进行状态空间建模 SM Convenient 张量缩并又是一堆专业术语

听着我有点晕没关系我来给你解释一下 SOM 指的是状态空间模型 ConveNet 指的是卷积神经网络都是 AI 领域常用的模型架构这篇论文的核心思想是把状态空间模型 SSM 看作是一种特殊的卷积神经网络 ConveNet 并利用卷积神经网络的一些优化技巧来提升 SM 的效率把 SSM 看作 ConveNet

这两种模型不是不太一样吗?表面上看不太一样,但研究人员发现 SM 的运算过程其实可以转化成一种叫做张量缩并的数学运算,而张量缩并正是卷积神经网络的核心运算之一。张量缩并听起来好抽象,你可以简单理解为一种高效的矩阵运算方式。

通过把 SACM 的运算转化为张量索并研究人员就可以利用一些数学技巧找到最优的运算顺序

从而大大提高 SVM 的训练和推理效率优化运算顺序就能提高效率这么神奇是的而且他们还借鉴了经典卷积神经网络 CNN 的设计理念例如深度可分离卷积瓶颈结构等等来设计新的 SSM 模块构建了一个叫做 Santoris 的新型神经网络架构 Santoris 听起来像个神话人物的名字

是的这个名字也挺酷的实验表明 Centaurus 网络在音频处理任务上表现非常出色例如关键词检测语音降噪自动语音识别等等更令人惊讶的是 Centaurus 完全基于 SSM 架构没有使用任何传统的循环神经网络 RN

卷积神经网络 CNN 或者注意力机制就实现了媲美现有语音识别系统的性能完全基于 SM 不用 CNN 和 RNN 也能做语音识别这真是个突破没错这篇论文最大的亮点就是证明了 SSM 作为一种独立的序列模型具有巨大的潜力可以替代传统的 RNN 和 CNN 甚至在某些方面更具优势

那 Santoris 有什么不足之处吗研究人员也提到 Santoris 网络还有一些可以改进的地方比如如何更好的融合数据门控机制以及如何扩展到更大规模的任务和视觉任务等等明白了

那从这个研究中我们能学到什么呢我觉得重要的一点是要重新审视传统模型的设计理念看似过时的模型设计例如经典的 CNN 架构在新的模型框架下仍然可以焕发出新的生命力分辨在于我们要深入理解模型运算的本质并善于借鉴和融合不同模型的优点

温古尔之心看来经典永不过时是的最后我们再来看一篇论文题目是 Sigma 查询件和值得差分重缩放以提高语言模型效率

Hygma 插分重缩放,这又是在讲什么效率提升的黑科技?没错,这篇论文也是关注大语言模型的效率问题,但它的切入点非常独特,是从注意力机制入手的。我们都知道注意力机制是大语言模型的核心组件,但也是计算量最大的地方。注意力机制感觉每次讲到大模型都离不开它。

是的 注意力机制就像一个信息路由器负责在海量数据中找到关键信息但这篇论文的研究人员发现注意力机制中的不同组件对模型性能和效率的影响是不一样的不同的组件 你是说 query key value

没错 他们发现模型性能对 key 组件的压缩不如对 value 组件的压缩那么敏感也就是说我们可以更激进地压缩 key 组件而对 value 组件采取更保守的策略这样就能在保证模型性能的前提下大大降低计算量和内存需求差异化对待 这听起来有点意思

他们基于这个发现提出了一种新的注意力机制叫做 Diff QKV 注意力 Diff QKV 的核心思想就是差异化重缩放也就是对 query key value 这三个组件进行差异化的压缩和优化具体是怎么做的呢

他们对 Key 组件进行了更激进的压缩,例如减少注意力头的数量和维度,以大幅减小 KV 缓存的大小。同时为了弥补压缩 Key 组件可能带来的性能损失,他们增强了 Query 组件,例如增加 Query 注意力头的维度。一压一增,这有点像拆东墙补西墙。可以这么理解,但更准确的说是智能的拆东墙补西墙。

实验表明,DiffQQE 注意力机制在常温本场景下推理速度最高,可以提升 33.36%,这是一个非常显著的提升。而且他们还用 DiffQQE 的注意力机制在常温本场景下推理速度最高,可以提升 33.36%,这是一个非常显著的提升。

QKV 注意力机制构建了一个新的大语言模型叫做 SIGMA 在系统领域的任务上性能甚至超越了 GPT-4 超越 GPT-4 这么厉害系统领域是指什么系统领域指的是与计算机系统软件工程网络管理等相关的领域研究人员还专门构建了一个新的评测基准 AMCREATURES 来评估系统领域大语言模型的性能

SIGMA 在 AMTS 基准上表现非常出色在所有任务上都显著优于 GPT-4 看来这个 Deep QQV 注意力机制确实是效率和性能坚固的黑科技是的 这篇论文告诉我们对于复杂的模型组件不应该采用一刀切的优化策略

而应该深入分析不同组件的作用和特性采取差异化的优化方法才能取得最佳的效果差异化优化听起来很有道理那 SIGNA 模型有什么不足之处吗研究人员也指出 DFQKV 架构还有一些优化空间例如如何更好的进行参数权衡如何微调超参数等等而且 SIGNA 模型在短文本场景下的效率提升可能不如长文本场景那么明显

还需要进一步研究明白了今天的太快报真是干货满满信息量巨大感觉脑子都要超载了今天的这几篇论文都代表了 AI 领域的一些最新进展和思考方向希望能给大家带来一些启发和思考肯定会的感谢小 T 今天深入浅出的解读也感谢各位听众朋友的收听我们下期太快报再见下期见拜拜