We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：从科研助手到个性化定制

2025/2/28

AI可可AI生活

AI Deep Dive AI Chapters Transcript

People

小

小爱

Topics

小爱：本期节目探讨了AI领域的五个前沿方向，包括AI辅助科学研究、个性化AI服务、AI在软件工程中的应用、改进RLHF技术以及对LLM进行元分析。首先，我们讨论了‘AI协同科学家’的概念，它是一个基于Gemini 2.0的多Agent系统，通过模拟科学家的研究过程（生成假设、辩论、分析、进化改进），来辅助科学家进行科学发现，提高科研效率，尤其在生物医学领域展现出巨大潜力。然而，该系统目前仍依赖公开数据，对非公开数据和非文本信息的处理能力有限，未来需要进一步改进。其次，我们分析了‘FSPO’框架，它利用合成偏好数据进行少样本偏好优化，使LLM能够快速适应真实用户的偏好，提供更个性化的服务。该方法的核心在于通过少量用户偏好数据学习快速适应能力，并利用用户画像来预测用户需求，从而生成更符合用户期望的个性化回答。但该方法也存在伦理风险，需要在个性化和公平性之间取得平衡。接下来，我们探讨了‘像素编程’的概念，它提出了一种新的软件工程AI Agent范式——计算机使用型Agent。这种Agent通过像素级观察和基本操作与IDE交互，更接近人类开发者的工作方式，具有更强的通用性和适应性。实验结果表明，这种方法在许多软件工程任务上表现出色，但其视觉感知能力和对IDE工具的利用能力仍有提升空间。然后，我们讨论了如何改进RLHF技术，以减少奖励劫持问题。论文提出了三个关键设计原则和一个名为PAR的新方法，通过设计更合理的奖励函数，引导模型朝着正确的方向学习，提高训练稳定性和模型性能。但该方法在模型峰值性能提升方面仍有改进空间。最后，我们介绍了一篇关于LLM元分析的论文，它提出了一种半自动化元分析方法，构建了一个大规模、持续更新的LLM评估数据集，揭示了上下文学习在多模态任务中的优势等新见解。该数据集的开源，促进了开放科学的发展，为未来的LLM研究提供了宝贵的数据支撑。

Deep Dive

Chapters

本部分探讨了利用AI协同科学家系统辅助科学研究的可能性。该系统通过模拟科学方法的步骤，例如生成假设、辩论、分析和改进，来加速生物医学等领域的科研创新。虽然该系统展现出巨大潜力，但仍存在一些局限性，例如对非公开数据和非文本信息的处理能力有限，以及潜在的偏见问题。

AI协同科学家系统是一个多Agent系统，模拟科学研究过程
在生物医学领域展现出应用潜力，例如药物再利用和新药靶点发现
依赖公开文献数据，对非公开数据和非文本信息处理能力有限
人机协同是AI赋能科学发现的最佳模式

Shownotes Transcript

听众朋友们大家好,欢迎收听最新一期的太快报,我是主持人小爱。大家好,很高兴又和大家在太快报见面了。感觉最近 AI 领域的新闻和论文真是井喷式爆发,每次看都觉得信息量巨大,有点跟不上节奏了。是 AI 发展太快了,每天都有新突破,不过没关系,太快报就是帮大家去烦就简梳理最新最值得关注的 AI 动态。

今天我们精选了几篇有趣的论文保证让大家耳目一新太好了快给我们剧透一下今天都有哪些精彩内容今天的内容非常丰富我们继续聊到 AI 如何成为科学家的得力助手加速科研发现也会探讨 AI 如何变得更懂用户提供个性化的服务还会关注 AI 在软件工程领域的应用甚至聊到如何让 AI 的学习过程更稳定可靠

最后,我们还会从一个更宏观的视角,看看当前大型语言模型的发展趋势。听起来就非常硬核又有趣,那我们先从哪一篇开始呢?我们先来聊聊第一篇题目是打造 AI 协同科学家。AI 协同科学家,听起来像是科幻电影里的场景,是说 AI 要取代科学家了吗?别紧张,不是要取代科学家,而是要成为科学家的好帮手。

这篇论文介绍了一个叫做 AI 协同科学家的 AI 系统这个系统厉害之处在于它能像科学家一样辅助进行科学研究帮助科学家发现新的知识提出新的研究假设听起来好智能它是怎么做到的呢

这个 AI 系统其实是一个 DotAgent 系统你可以理解为它是由很多身怀绝技的 AI 特工组成的团队他们分工合作用类似科学家进行科研的步骤生成假设、辩论、分析、进化改进来工作

生成假设辩论分析进化改进听起来有点抽象能解释得更通俗一点吗当然生成假设就像科学家提出一个猜想比如说这个药可能对这种病有效辩论分析就是对这个猜想进行论证看看有没有科学依据有没有实验数据支持进化改进就是根据辩论的结果不断改进这个猜想让它更完善更准确明白了那这个 AI 系统在哪些领域发挥作用呢

论文里重点介绍了生物医学领域比如药物在利用新药靶点发现以及研究细菌的抗氧性机制举个例子在药物再利用方面这个 AI 系统就成功预测了几种可能对白血病有效的药物而且还在实验中得到了验证哇这么厉害那它和传统的 AI 模型有什么不一样呢

这个 AI 协同科学家的创新之处在于它不仅仅是一个模型而是一个系统它模拟了科学研究的过程并且能够利用大量的计算资源进行头脑风暴快速生成和评估大量的假设更厉害的是它还能自我学习通过不断的锦标赛事的竞争提升假设生成的质量锦标赛

听起来像是在选拔优秀选手一样没错就是这个意思系统会生成很多假设然后让他们互相 PK 表现好的假设会被保留下来并不断改进最终得到高质量的科学假设听起来这个 AI 协同科学家真的很有潜力他能给未来的科学研究带来哪些改变呢

我觉得最大的改变就是能大大提高科研效率加速科学发现的进程以前科学家可能需要花费大量时间进行文献调研假设推演现在有了 AI 的辅助这些工作可以更快更高效地完成而且 AI 还能帮助科学家

科学家拓展研究思路发现一些人类科学家可能忽略的盲点那它有什么不足之处吗?当然任何技术都不是完美的比如这个系统目前主要依赖于公开的文献数据可能对一些非公开的或者特定领域的知识了解有限另外它对图片、图表等非文本信息的理解能力还有提升空间而且毕竟是 AI 系统它可能会受到训练数据和算法的限制存在一些潜在的偏见

完全正确这篇论文也强调了科学家在环路的重要性也就是人机协同合作才是 AI 赋能科学发现的最佳模式

AI 是科学家的助手和伙伴而不是替代品听完 AI 协同科学家感觉 AI 真的是越来越深入到各个领域了接下来我们聊聊哪一篇呢接下来我们关注一下个性化 AI 第二篇论文是面向真实用户个性化服务的少样本篇号优化个性化 AI 听起来很贴近生活是说 AI 要更懂我吗是的

这篇论文就是研究如何让大型语言模型,也就是 LM,更好地理解不同用户的偏好,从而提供更个性化的服务。比如,你喜欢看喜剧电影,就能推荐更多喜剧片给你。你喜欢简洁的回答,AI 就不会啰啰嗦嗦。这个听起来很棒,现在的 AI 感觉还是有点通用,不够贴心。对传统的 AI 模型训练的时候往往是学习大众的平均偏好。

很难照顾到每个用户的独特需求而 FSPO 方法就是为了解决这个问题它的核心思想是让 AI 通过学习少量的用户偏好事例就能快速适应个体用户的需求少量的学习听起来很神奇只需要少量事例就能学会

是的这也是 F4PO 的创新之处它把个性化奖励建模看作是一个原学习问题你可以理解为 AI 不是针对每个用户从头开始学习而是学习一种快速适应的能力

就像一个人学会了举一反三就能很快掌握新的技能那合成偏好数据又是什么意思呢因为真实用户的偏好数据很难收集而且成本很高这篇论文就提出了一种生成合成偏好数据的方法也就是用 AI 自己生成一些模拟用户偏好的数据来训练模型用 AI 生成数据训练 AI 这听起来有点像左脚踩右脚的感觉靠谱吗

一开始我也觉得有点反直觉,但论文的实验结果表明,这种方法是有效的关键在于合成数据要设计得足够好,既要多样化又要具有一定的结构这样 AI 才能学到有用的个性化模式那 FSPO 方法具体是怎么实现的呢?他们提出了一个叫做用户描述链式思考的方法简单来说就是 AI 先根据用户的少量偏好

事例预测这个用户的画像或者描述然后再根据这个用户画像和用户的具体问题生成个性化的回答用户画像听起来像是在给用户贴标签可以这么理解但这里的用户画像更侧重于描述用户的偏好特征比如喜欢简洁回答的用户喜欢幽默风格的用户等等

通过预测用户画像 AI 就能更好地理解用户的潜在需求从而生成更符合用户期望的回答听起来 FSPO 方法很有潜力它能应用在哪些场景呢应用场景非常广泛比如个性化推荐系统虚拟助手内容创作等等想象一下未来的 AI 助手不仅能听懂你的指令还能理解你的喜好真正成为你的贴心伙伴太期待了

那 FSPO 方法有什么局限性吗?任何技术都有进步空间比如个性化 AI 也可能带来一些伦理风险比如加剧信息减防放大用户偏见等等如何在个性化的同时保证模型的公平性和安全性还需要进一步研究另外目前 FSPO 方法主要是在一些特定领域进行了验证在更复杂更开放的应用场景中效果还有待检验嗯

看来技术发展的同时伦理问题也需要同步考虑接下来我们换个话题聊聊 AI 在软件工程领域的应用吧好的第三篇论文是用像素编程聚焦软件工程的计算机使用性 agent 环境用像素编程

听起来有点像在玩游戏是说 AI 要像人一样操作电脑编程吗没错这篇论文提出了一个很有意思的观点他们认为未来的软件工程 AI agent 应该像人类开发者一样通过看像素及观察和操作打字点击的方式直接与集成开发环境也就是 ID 交互现在的软件工程 AI agent 不是已经很厉害了吗比如代码自动补全代码生成等等

现在的 AI Agent 大多是基于工具型的范式也就是说他们需要依赖于预先设计好的工具 API 才能完成特定的软件工程任务这种方式虽然在特定任务上很有效但通用性比较差换个编程语言或者换个 ID 就可能没法用了

工具 API,听起来有点专业。你可以理解为现在的 AI Agent 就像是使用特定工具的专家,比如专门用螺丝刀拧螺丝的专家,如果要拧其他类型的螺丝,或者要完成其他任务,就可能束手无策了。明白了,那计算机使用性 Agent 又有什么不同呢?

计算机使用型 agent 就像是一个通用的操作员它不需要预先知道具体的工具 API 而是通过视觉感知和基本操作就能与任何 ID 进行交互完成各种软件工程任务就像人类开发者一样我们可以通过眼睛观察屏幕用键盘鼠标操作电脑完成各种编程工作听起来计算机使用型 agent 更像一个通用型选手适应性更强

是的,這也是這篇論文的核心觀點,他們認為,計算機使用型方式才是未來軟件工程 AI agent 的發展方向。為了驗證這個觀點,他們還開發了一個叫做 PWP 的環境,也就是 Programming with Pixels 的縮寫,中文可以叫做像素編程環境。

听起来很酷这个 PWP 环境是基于苏 ODE 这个流行的 ID 构建的它提供像素级的观察和基本操作接口让 AI Agent 可以直接在 Gunroad 里面编程为了评估计算机使用型 Agent 的能力他们还构建了一个叫做 PWP Bench 的基准测试包含了 15 项不同的软件工程任务那实验结果如何呢计算机使用型 Agent 表现怎么样

实验结果很有意思他们发现通用的计算机使用型 agent 在很多软件工程任务上竟然能够达到甚至超过那些专门的工具型 agent 的性能这说明计算机使用型范式是完全可行的而且潜力巨大太令人惊讶了那计算机使用型 agent 有什么局限性吗目前的计算机使用型 agent 在视觉感知方面还有提升空间

比如在复杂的 ID 界面中可能难以准确识别 UI 元素另外他们对 ID 工具的利用还不够充分比如调试器性能分析器等等这些强大的工具现在的 agent 还不太会用明白了看来计算机使用性 agent 还处于发展初期还有很多潜力可以挖掘接下来我们聊聊什么呢

接下来我们来关注一下如何让 AI 的学习过程更可靠第四篇论文是为减少 RLHF 中奖励劫持问题的奖励塑造论文研究的是如何改进人类反馈强化学习也就是 RLHF 技术

RLHF 这个词听起来有点耳熟但还是不太明白是什么意思 RLHF 就是 Reinforcement Learning from Human Feedback 的缩写人类反馈强化学习它是训练大型语言模型让人工智能更符合人类价值观的重要技术

简单来说就是通过人类的反馈来引导 AI 模型的学习方向让人工智能更听话更靠谱听起来很重要那奖励劫持又是什么意思呢奖励劫持是 RLHF 中一个很棘手的问题你可以想象一下我们训练 AI 模型就像训练小孩子一样我们会给他奖励来鼓励他做好事

但有时候小孩子可能会钻空子通过一些不正当的手段来获得奖励而不是真正理解我们想要他做什么这就是奖励劫持的意思在 RLHF 中模型可能会利用奖励函数的缺陷而不是真正改进它的行为从而导致模型跑偏

明白了就像考试作弊一样虽然分数很高但并没有真正学到知识那奖励塑造又是干什么的呢奖励塑造就是一种改进 RLHS 的技术它的目的是设计更合理的奖励函数引导模型朝着正确的方向学习避免奖励劫持问题这篇论文就深入研究了奖励塑造的方法并提出了三个关键的设计原则三个设计原则听起来很系统

是的这三个原则分别是第一奖励值最好是有戒的不要让奖励值无限增长这样可以保证训练的稳定性第二奖励值最好是先快速增长然后逐渐收敛这样既能保证学习效率又能避免过度优化第三奖励函数最好是基于相对奖励差异

也就是更关注模型行为的相对改进而不是绝对奖励值听起来很有道理那基于这三个原则论文提出了什么新的方法吗他们提出了一个叫做 PAR 的方法全称是 Preference as Reward 中文可以叫做偏好即奖励 PAR 方法的核心思想是将奖励函数设计成一个 Sigmoid 函数并应用于中心化的奖励值 Sigmoid 函数听起来有点数学化

Sigma 位函数其实就是一个 S 型的曲线它的特点是值与有界初始阶段增长很快后面逐渐趋于平缓这正好符合他们提出的奖励塑造的三个原则而且 PAR 方法还把塑造后的奖励值理解为模型响应相对于参考响应的相对偏好这也更符合 RLHF 的本质

PAR 方法效果怎么样呢?能有效缓解奖励、劫持问题吗?实验结果表明,PAR 方法非常有效,它不仅能够提高 RLHF 训练的稳定性,而且能够显著缓解奖励、劫持问题、提升模型的性能。在一些基准测试中,PAR 方法比其他奖励塑造方法胜率至少高出 5 个百分点。

听起来 PAR 方法很实用,那它有什么局限性吗?PAR 方法主要是在提升训练稳定性和环节奖励,劫持方面表现出色,但在模型峰值性能的提升方面可能还有进步空间。另外,论文提出的三个设计原则还是比较 general,具体的参数设置和微调策略可能还需要进一步研究。

看来奖励塑造还有很多细节需要打磨最后我们来聊聊最后一篇论文的好的最后这篇论文视角更宏观一些题目是《波云见日》大规模持续更新的前言 LLM 原分析原分析听起来像是在分析分析结果是吗

可以这么理解语言分析就是对已有的研究结果进行综合分析从更高的层面把握领域的发展趋势发现一些更深层次的规律这篇论文就是对当前前沿的大型语言模型也就是 LM 进行了一次大规模的语言分析

为什么要进行原分析呢?因为现在 LM 的研究成果太多了每天都有大量的新论文涌现研究人员很难全面了解整个领域的发展状况

原分析就像是站在更高的山峰上俯瞰整个森林帮助我们拨云见日看清 LF 领域的整体图景那这篇论文是怎么进行原分析的呢他们提出了一种半自动化的原分析方法简单来说就是利用 LBM 自身的能力自动从大量的论文中提取实验数据和相关信息然后再进行统计分析这种方法大大提高了数据提取的效率

比传统的手工方法效率提高了 93%以上用 AI 来分析 AI 的研究论文听起来好套啊是挺有意思的他们构建了一个持续更新的数据集包含了来自 1700 多篇论文的 18000 多条实验记录数据规模非常庞大基于这个数据集他们进行了一系列的分析发现了一些很有意思的规律发现了什么有趣的规律呢

比如他們驗證了之前一些關於思維鏈也就是 COT 提示的手動員分析的結論同時也發現了一些新的見解比如他們發現對於多模態任務上下文勢力學習也就是 ICL 比思維鏈更有效

但在数学任务中上下文示例学习的增益有限思维链和上下文示例学习这两个提示方法有什么不同吗简单来说思维链是引导模型一步一步思考给出推理过程上下文示例学习是给模型一些示例让模型模仿示例的风格和方法

他们的研究表明这两种提示方法在不同类型的任务中效果可能会有差异这也提醒我们在应用 LM 的时候要根据具体的任务类型选择合适的提示策略明白了那这个原分析数据集对我们有什么用呢这个数据集是一个宝贵的资源它可以帮助研究人员更好的了解 LLM 的性能特点发展趋势也可以为未来的 LLM 研究提供数据支撑

而且他们还开源了数据集和代码方便社区进行进一步的研究和原分析,这也促进了开放科学的发展。听起来这篇原分析论文很有价值,感觉今天聊的这几篇论文都非常前沿和有趣,让我对 AI 的未来发展充满了期待。是今天这几篇论文分别从不同的角度展示了 AI 领域的最新进展。

从 AI 协同科学家到个性化 AI 到软件工程 AI 再到 RAHHF 改进和 LM 原分析这些研究都在不断推动 AI 技术向前发展让我们看到了 AI 更广阔的应用前景好的听众朋友们本期太快报就到这里了感谢大家的收听我们下期再见下期见拜拜

AI前沿：从科研助手到个性化定制 18:28 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：从科研助手到个性化定制