We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:从推理外推到医疗影像

AI前沿:从推理外推到医疗影像

2025/6/12
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
People
小T
小爱
Topics
小爱: 我介绍了E3方法,它旨在解决大语言模型在获得更多计算资源时,推理能力提升不明显的问题。E3的核心在于让模型像人类一样进行探索、试错、验证和调整,形成一个多步骤的思考链条。通过这种方式,模型能够在数学推理等任务中取得更好的成绩,并且能够适应更多的思考量,从而在解决复杂问题时取得更大的突破。E3方法模拟了人类解决问题的过程,让AI不仅仅是简单地生成答案,而是通过不断地验证和修正,逐步逼近正确答案。这种方法在数学推理测试中表现出色,证明了其有效性。

Deep Dive

Chapters
本期节目首先探讨了如何提升大语言模型的推理能力,尤其是在更长的思考时间下。研究人员提出了一种名为E3的训练方法,通过让模型学习探索、生成假设、验证答案和修正错误,从而形成多步思考链条,最终在数学推理测试中取得了显著成果。
  • E3训练方法的核心是让模型学会探索,像人一样逐步思考、试错、验证和调整
  • E3方法在数学推理测试中,用不到20亿参数的小模型取得了同等规模模型中的最佳成绩
  • 该模型能够适应比训练时多一倍的思考量,表现依然提升

Shownotes Transcript

大家好,欢迎收听本期太快报,我是小爱。大家好,我是小 T,很高兴又见面了,我们直接进入主题吧。好的,第一篇论文是关于大语言模型的,标题是 E3 Learning to Explore Enables Extrapolation of Test Time Compute for LM。

听起来有点复杂能不能先给我们解释一下这研究在解决什么问题没问题这篇论文关注的是大语言模型也就是那些能生成文本回答问题的 AI 系统的一个大难题当我们在使用这些模型时给他们更多的思考时间比如让他们生成更长的回答或者处理更多信息他们的表现往往没有变得更好

确实 AI 也需要适应长逃那这篇论文是怎么解决这个问题的

他们提出了一种叫 E3 的训练方法核心是让模型学会探索想象一下人在解决复杂问题时不会直接给答案而是会一步步思考试错验证调整 E3 就是教 AI 做类似的事通过生成假设验证答案修正错误形成一个多步

不久的思考链条而且他们发现 AI 在某些能力上强弱不均比如验证答案比生成答案做得好 E3 就利用这种差异让模型在推理时多验证几次逐步逼近正确答案听起来像是让 AI 学会多想几步那这种方法效果如何呢效果很不错

他们在数学推理测试中用一个不到 20 亿参数的小模型取得了同等规模模型中的最佳成绩而且更厉害的是这个模型能适应比训练时多一倍的思考量表现依然提升这说明 E3 真的让 AI 学会了如何在更长时间里有效思考未来如果这种方法推广到更大的模型上可能在解决复杂问题时会带来更大的突破真有意思从让 AI 多思考

接下来我们聊聊怎么让 AI 少占空间第二篇论文叫 Lianne on Low Storage Vector Index 这是关于什么的这篇研究解决的是 AI 在个人设备上的存储问题

我们知道很多 AI 应用比如搜索或推荐系统需要存储大量数据来进行快速匹配但这些数据结构往往很大可能比原始数据大好几倍手机或笔记本根本装不下 Lian 这个方法目标是把存储需求压缩到原始数据的 5%以下让 AI 搜索能在你的手机上也能跑起来 5%以下那逮损下多少空间

他们是怎么做到的他们的核心思路是存算不存全传统的做法是把所有数据预先处理好存起来但立案选择在需要时临时计算出数据而不是全部存着这就像你不需要把整本字典背下来只在查单词时翻开对应页就行

他们还设计了聪明的筛选机制先用低成本的方式挑出可能有用的数据再精确计算这样既省空间速度也能接受听起来很聪明那实际效果如何在手机上用会不会卡测试结果很令人振奋 Lian 把存储空间压缩了高达 50 倍同时在问答任务中检索准确率还能保持在 90%以上

延迟也在两秒以内在普通笔记本或手机上都能跑这意味着未来我们可能在不联网的情况下也能在个人设备上享受强大的 AI 搜索功能比如一线问答或个性化推荐这对隐私保护也很重要毕竟数据不用上传云端接下来我们聊第三篇论文 Dragged into Conflict 这个研究是关于搜索增强型大圆模型的冲突处理这又是啥问题

好,这篇论文关注的是检索增强生成系统,也就是让 AI 在回答问题时,先从网上或其他数据库搜集信息,再生成答案。但问题来了,搜回来的信息经常互相矛盾,比如一个来源说 A,另一个说 B,AI 该听谁的。这篇研究提出不同类型的冲突,AI 应该有不同的应对方式。确实信息冲突很长。

那他们怎么分类和处理的呢他们把冲突分成了五类比如没有冲突只是补充信息观点对立信息过时或者单纯是错误信息每种情况 AI 的回应方式都不同如果是观点对立就要中立的总结双方如果是过时信息就优先用最新的

他们还创建了一个数据集专门用来测试 AI 处理冲突的能力结果发现普通 AI 在这方面表现一般但如果明确引导他先判断冲突类型再做到效果会好很多也就是说 AI 需要先看清局势再发言这对我们日常使用 AI 比如查资料或问问题有什么影响影响很大

如果 AI 能更好的处理冲突,我们得到的答案会更靠谱,不会轻易被误导。比如在医疗或法律咨询中,AI 能分辨出过时的建议,或者中立呈现争议话题,这对用户决策帮助很大。未来这类技术可能让 AI 助手更像一个理性顾问,而不是简单的信息搬运工。说得太好了,接下来是第四篇论文,关于视觉推理的,标题是 Asocratic。

这听起来像是 AI 在自问自答没错这篇研究针对的是视觉语言模型也就是那些能看懂图片并回答问题的 AI 系统很多这类模型缺乏深度推理能力比如看到一张图不会像人一样一步步思考问题这项研究提出了一种方法叫 Socratic MCTS 让 AI 的学生

让 AI 在回答前先自己提出一系列小问题再逐个回答形成一个推理链条就像苏格拉底教学法那样通过提问引导思考自己提问自己回答这听起来很有创意效果怎么样效果非常棒他们测试发现这种方法能显著提升模型在复杂视觉任务上的表现比如在设计文科知识的图片问答中准确率提高了 9%

更重要的是这不需要对模型重新训练只是在使用时调整策略这意味着我们可以让现有的 AI 模型变得更聪明而不用花大力气重新打造这真是无中生有的魔法最后一篇论文是 The Way Our Models Transfer 关于医疗影像分析的迁移学习能不能给我们介绍一下当然

这篇研究聚焦在计算病理学领域也就是用 AI 分析医学图像比如从巨大的病理切片中找出癌症特征他们研究的是多势力学习模型这种模型擅长处理大数据但训练时往往需要大量标注数据论文探讨了一个问题能不能用预先训练好的模型直接用在新的任务上就像我们手机上的软件可以跨设备用一样听起来像是知识附用那结果如何能用吗

结果非常令人惊喜他们发现育育训练的模型即使是在不同器官或不同类型的疾病上训练的也能显著提升新任务的表现尤其是在包含多种癌症类型的数据上育育训练后模型的适应能力特别强甚至比一些用海量数据训练的基础模型还好这说明这种迁移学习在医疗 AI 领域有巨大潜力可以节省数据和训练成本加速诊断工具的开发

这里对医疗领域真是福音尤其是数据稀缺的小医院可能受益匪浅听完这五篇论文我感觉 AI 正在从各个角度改变我们的生活感谢小 T 的精彩讲解也感谢大家的收听我们下期再见下期见拜拜