We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:高效多向量检索引擎与批判式微调

AI前沿:高效多向量检索引擎与批判式微调

2025/1/31
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive Transcript
People
小 T
小爱
Topics
小爱:我关注信息检索、大型语言模型、AI偏见和AI在制造业中的应用等领域,介绍了WARP高效多向量检索引擎,它通过动态相似性估算、隐式解压缩和两阶段归约技术,将检索速度提升41倍,并减少索引大小。我还介绍了批判微调(CFT)框架,该框架通过让模型学习批评错误答案来提升其能力,在数学推理任务中取得了显著成果。此外,我还讨论了AI偏见问题,指出即使是最先进的LLM也存在隐性偏见,并介绍了利用LLM预测3D打印缺陷的研究,该研究在结构化输入下实现了93%的预测准确率。 小T:我主要关注大型语言模型、AI偏见和深度学习基础研究。我详细解释了WARP引擎的技术细节,并讨论了其广泛的应用前景。我还深入探讨了批判微调(CFT)框架的原理和效果,指出其数据效率高,但同时也存在一些局限性。关于AI偏见,我分析了研究中发现的隐性偏见,强调了评估AI系统公平性不能只看其言语,更要看其行为。最后,我介绍了深度与广度学习(DWL)框架,该框架通过协同学习数据内和数据间表征,显著提升了深度学习模型的精度和计算效率,速度最高提升达200倍。

Deep Dive

Shownotes Transcript

听众朋友们大家好欢迎收听最新一期的太快报我是主持人小爱大家好我是小 T 很高兴又和大家在太快报相聚一起聊聊 AI 领域的最新进展今天我们太快报又将带给大家哪些新鲜的 AI 技术

看今天的标题就感觉信息量满满真是让人迫不及待想听听了哈哈今天的内容确实很有意思我保证能让大家耳目一新我们今天精选了几篇最新的 AI 研究论文涵盖了信息检索大型语言模型学习以及 AI 偏见等多个热门领域这些研究都非常前沿而且有些结论可能会颠覆我们对 AI 的一些固有认知听起来就非常硬核

那我们先从哪一篇开始呢?我们先从一篇来自苏黎世联邦理工和加州大学伯克利分校等机构的合作研究开始吧。这篇论文是关于信息检索领域的题目是 Warpan Efficient Engine for Multivector Retrieval,高效多项量检索引擎。信息检索,听起来好像离我们日常生活很近,比如我们平时用搜索引擎找资料就属于信息检索吧。

是的,信息检索技术就在我们身边,像搜索引擎、电商网站的商品,搜索甚至我们手机里的照片查找功能,都离不开它。这篇论文关注的是一种叫做多向量检索的先进技术,你可以把它想象成升级版的搜索,不仅仅根据关键词,而是从多个向量或者说角度去理解和匹配信息。多个角度听起来更智能啊。

那这项研究有什么突破呢这项研究厉害的地方在于他们开发了一个名为 Warp 的新型检索引擎专门为多项量检索提速你知道虽然多角度搜索很强大但计算量也很大速度容易成为瓶颈

就像是给多项量检索装上了涡轮增压发动机让它跑得飞快论文里说 Warp 引擎比之前的同位技术提速高达 41 倍而且索引文件还更小简直是又快又省空间 41 倍这也太夸张了吧

他们是怎么做到的关键在于 Warp 引擎的三大创新技术动态相似性估算影视解压缩和两阶段规约这些技术听起来有点专业但你可以简单理解为 Warp 在保证搜索质量的前提下尽可能减少不必要的计算步骤就像是优化算法

让程序跑得更流畅 他们还用优化的 c++代码和专门的运行时环境来进一步提升速度听起来真是黑科技满满 那这项技术有什么实际应用前景吗 应用前景非常广阔你想想如果搜索引擎用上 warp 技术 我们搜索信息就能更快更准 对于处理海量数据的企业来说 warp 可以大大提升检索效率 降低成本

而且论文里也提到 Warp 不仅速度快还能保持甚至提升检索质量这才是最难能可贵的确实厉害既要跑得快又要效果好这才是真本事听完 Warp 感觉 AI 技术又向前迈进了一大步接下来我们聊聊哪方面呢

接下来我们来聊聊大型语言模型,也就是现在非常火的 LM。有一篇论文题目就很有意思,叫 Critic-fine tuning learning to critique is more effective than learning to imitate。批评微调,学会批评比学会模仿更有效。学会批评比学会模仿更有效,这标题听起来就很有哲理,感觉颠覆了我们通常的学习认知。

没错我们通常认为训练 AI 模型就是要让他模仿学习正确答案就像我们小时候学写字要临摹字帖一样但这篇论文提出了一个反直觉的观点让模型学习批评错误答案可能比单纯模仿正确答案更有效批评错误答案这是什么新思路你可以想象一下我们人类学习也是这样的有时候老师指出我们错在哪里比直接告诉我们正确答案更能让我们印象深刻理解更深入

这篇论文就是借鉴了这种批判性思维的学习方式提出了一种新的微调策略叫做批判微调 Critic Fine Tuning 简称 CFT 那 CFT 具体是怎么做的呢简单来说 CFT 不是直接让模型学习正确答案而是给模型看一些有瑕疵的答案

然后让模型学习去批评这些答案哪里不对为什么不对通过这种批判过程模型反而能更好地理解问题的本质提升推理能力这真是个很有意思的角度那 CFT 的效果怎么样呢真的比传统的模仿学习更好吗

实验结果非常亮眼论文作者在多个数学推理的基准测试中用 CFT 微调的模型性能都显著超越了传统的监督微调 supervised fine tuning 简称 ST 而且提升幅度还挺大有 4%到 10%更令人惊讶的是 CFT 还非常数据高效他们只用了少量的数据就达到了甚至超过了用海量数据训练的 SFT 模型的效果

哇这真是太厉害了感觉 AI 的学习方式也变得越来越像人类了不再是死记硬背而是开始注重理解和思考那 CFT 这种方法有什么局限性或者可以改进的地方吗

论文作者也提到了 CFT 的效果依赖于批判数据的质量如果批判本身不够准确可能会影响模型的学习效果另外目前的 CFT 模型还缺乏自我批判能力也就是不能自己发现和纠正错误这可能是未来可以改进的方向任何技术都不是完美的都有进步的空间

不过 CFT 这种批判性学习的思路确实给了我们很多启发。接下来我们再换个话题,聊聊 AI 的偏见问题吧。我最近也看到不少关于 AI 偏见的讨论,感觉这是一个挺重要的议题。是的,AI 偏见问题确实非常重要,它关系到 AI 的公平性和可靠性。有一篇卡内基美容大学的研究题目是 Action Speak Louder Than Words, Agent Decisions Review Implicit,

"Bias in Language Models"形勝語言 agent 決策揭示語言模型隱性偏差就深入探討了這個問題形勝語言這個標題也很有意思感覺又是一個反直覺的發現可以這麼說我們通常認為如果直接問 AI 模型一些敏感問題比如關於性別種族的問題模型可能會給出看似正直正確的回答來避免顯性偏見但這篇論文的研究者發現

虽然模型在言语上可能显得没有偏见但在模拟人类行动时却会暴露出显著的隐性偏见模拟人类行动这是什么意思他们开发了一种技术用 LOM 来模拟不同社会背景的虚拟人 agent 比如不同性别种族政治倾向的人然后让他们在一些决策场景中做选择观察他们的行为差异结果发现即使是最先进的 LM

在模拟 agent 行为时仍然存在明显的社会人口统计学差异也就是对不同群体有不同的对待这有点细思极恐那他们都发现了哪些方面的隐性偏见呢研究者主要考察性别种族 states 民族和政治意识形态等方面的偏见他们发现

LLM 模拟的 agent 在贷款审批招聘等场景中会表现出与现实世界中存在的偏见相似的模式比如对某些种族群体更不友好或者在政治立场上有所偏袒更令人惊讶的是越是先进的 LLM 模型比如 GBT4O、GBT4 Turbo 隐性偏见反而更明显虽然它们的显性偏见可能有所减少这真的是反直觉了

我们通常认为模型越先进应该越公正才对是的这说明我们现在对 AI 偏见的理解还不够深入我们可能更关注了显性偏见的环节但对隐性偏见的关注还不够这项研究提醒我们评估 AI 系统的公平性不能只看它怎么说更要看它怎么做也就是要考察模型在实际应用中的行为表现仅剩余言真是点睛之笔这项研究对我们有什么启示呢

他提醒我们 AI 偏见是一个复杂且多层次的问题不能只停留在表面功夫我们需要更深入的研究和解决 AI 系统中的隐性偏见

确保 AI 技术真正服务于所有人,而不是加剧社会不公。AI 伦理问题真的需要我们持续关注和反思。聊了这么多偏见问题,我们来听一个稍微轻松点的话题吧。我看今天的论文里还有一篇是关于 AI 在制造业的应用的题目是 Editive LLM Language Models Predictable。

用大型语言模型预测快速成型制造缺陷没错这篇论文很有意思他探索了大型语言模型在制造业中的新用途预测增材制造也就是我们常说的 3D 打印的缺陷 3D 打印还能用 AI 来预测缺陷这听起来也挺新奇的

是的 3D 打印 特别是金属 3D 打印工艺参数非常复杂稍有不慎就容易出现缺陷比如气孔 裂纹等等传统上检测这些缺陷需要人工或者昂贵的专业设备效率比较低这篇论文的研究者就想能不能用 LM 来解决这个问题

LM 不是主要用来处理语言文字的吗怎么还能预测制造缺陷这就是这篇论文的创新之处他们把 3D 打印的工艺参数比如激光功率扫描速度等等转化成类似语言的结构化数据然后用 LM 进行学习和预测他们还尝试了两种不同的输入格式

一种是结构化的基线格式一种是更接近自然语言的提示格式那效果怎么样呢 ILM 能准确预测缺陷吗结果相当不错他们用 LAMA3.2 模型在结构化的基线数据集上缺陷预测准确率高达 93%这说明 ILM

LM 确实有能力从工艺参数中学习到缺陷规律并进行准确预测不过当使用自然语言的提示格式输入时模型性能有所下降这说明模型对输入格式还是比较敏感的在处理非结构化数据方面还有提升空间后 93%的准确率已经很高了如果这项技术能应用到实际生产中肯定能大大提高 3D 打印的质量和效率吧

是的,这项研究为 AI 在制造业的应用开辟了新的思路,利用 ILM,我们可以更智能地控制 3D 打印过程,减少缺陷,提高良品率,降低生产成本。而且使用自然语言提示的方式也降低了技术门槛,让更多人可以方便地使用 AI 技术。

感觉 AI 真的是无所不能了,各行各业都能看到它的身影。今天我们聊的最后一篇论文是什么呢?最后一篇论文,我们再回到深度学习的基础研究领域。这篇论文来自散佛大学,题目是 Deep and Wide Learning Enhancing Data-Driven Inference with Synergistic Learning of Inter and Intra Data Representations 深度与广度学习,通过数据间和数据内表征协同学习,加强数据驱动推理。

深度与广度学习听起来就感觉很高深这篇论文提出了一种新的学习框架叫做深度与广度学习 Deep and Wide Learning 简称 DWL 我们知道现在的深度学习模型主要关注从单个数据样本内部提取高维特征也就是所谓的深度学习

但这项研究认为,我们还可以从多个数据样本之间提取低位特征,也就是广度学习,把深度和广度结合起来,可以更好地进行数据驱动的推理。数据间的特征,现在要怎么理解呢?你可以这样想,比如我们看一群人的照片,不仅要看每个人自己的长相特征,数据内特征,还要看他们之间的相似性和差异性。

数据间特征才能更好地理解他们所属的群体 D'Abois 就是借鉴了这个思路他不仅学习每个数据样本的内部特征还学习数据样本之间的关系特征听起来好像更全面了那 D'Abois 的效果怎么样呢效果非常显著论文

作者开发了一个名为 D-Net 的网络架构来实现 DWL 实验表明与传统的深度神经网络相比 DWL 在文本分类图像分类基因数据分析等多个任务中都显著提高了精度和计算效率速度甚至提升高达 200 倍而且在数据量有限的情况下 DWL 的优势更加明显 200 倍的提速这简直是智的飞跃那 DWL 为什么能这么高效呢

關鍵在於 DWL 巧妙地結合了高位特徵和低位特徵低位特徵可以捕捉數據之間的整體結構和關係減少模型需要學習的參數量從而提高效率而且 DWL 還能提升模型的可解釋性讓我們更好地理解模型是如何進行推理的聽起來 DWL 真的是一個非常有潛力的研究方向

它会对未来的 AI 发展产生什么影响呢?GWOW 的提出可能会改变我们对深度学习的传统认知它告诉我们更宽的模型不一定比更深的模型差甚至可能更好通过结合深度和广度的学习我们可以构建更高效、更强大、更可解释的 AI 模型这对于推动 AI 技术的进一步发展具有重要的理论和实践意义今天真是收获满满

感觉就像进行了一次 AI 前沿技术的深度游从高效检索引擎 Wall 到批判式学习 CFT 再到 AI 偏见问题以及 AI 在制造业和深度学习基础研究的新进展每一项都让人印象深刻是的今天的这几篇论文都代表了 AI 领域最新的研究方向和趋势他们既有对现有技术的改进和突破也有对 AI 伦理和社会影响的深刻思考

下期见拜拜