We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：AI自主搜索与古埃及象形文字识别

2025/3/11

AI可可AI生活

AI Deep Dive AI Chapters Transcript

People

小

小T

小

小爱

Topics

小爱：我关注到几个AI领域令人兴奋的研究进展，它们分别通过强化学习、上下文推理和数据示例来提升模型的搜索、知识更新和翻译能力，并用新方法提升小模型的数学推理能力，最终解决实际问题。首先，RE-Searcher这项研究通过强化学习，使大型语言模型能够自主搜索信息，解决知识库固定的问题，从而更好地回答专业问题和最新资讯。其次，SCR框架提供了一种无需修改模型参数就能更新知识的方法，通过外部知识库作为参考，让模型在推理时动态获取信息，从而更可靠地适应知识的连续变化。最后，在机器翻译领域，研究发现提供翻译示例比提供双语字典更有效，外部获取的例子比AI生成的例子效果更好，这表明模仿领域风格对提升翻译质量至关重要。小T：我补充几点细节。RE-Searcher巧妙地将强化学习应用于搜索能力的提升，它分两步走，先教模型如何调用搜索工具，再教它如何利用搜索结果回答问题，最终效果显著，甚至能与一些闭源的大模型媲美。在象形文字恢复方面，HieroLM这项研究将问题转化为“猜词”游戏，利用LSTM模型根据上下文预测缺失的象形文字，取得了超过44%的准确率，为考古学家提供了强有力的工具。此外，SPHERE框架则专注于提升小型语言模型的数学推理能力，它通过三步走策略（尝试解题、找出错误并改正、尝试不同解法）和蒙特卡洛树搜索技术，显著缩小了小型模型与大型模型之间的差距，让更省资源的小模型也能胜任复杂的数学任务。

Deep Dive

Chapters

本研究通过强化学习训练大型语言模型自主搜索信息，解决了模型知识固化的问题。研究人员将训练过程分为两步：首先训练模型如何正确使用搜索工具，然后训练模型如何利用搜索结果回答问题。实验结果表明，该方法在多步推理问答任务上的表现优于传统方法，甚至可以与一些闭源的大模型相媲美。

采用强化学习训练大型语言模型
将训练过程分为两步：搜索工具使用和信息利用
在多步推理问答任务中表现优于传统方法
可与一些闭源的大模型相媲美

Shownotes Transcript

大家好,欢迎收听本期《碳快报》,我是小爱。今天我们将带您走进 AI 领域的最新研究进展,探索 AI 如何通过强化学习知识更新,象形文字恢复翻译优化和数学推理能力增强,解决各种实际问题。

大家好我是小 T 很高兴和大家见面今天我们要聊的内容非常有趣涵盖了 AI 在不同领域的最新突破我会尽量用简单的话和生动的例子让大家听明白太好了那我们就从第一个话题开始吧

我听说有一项研究通过强化学习让大型语言模型学会自己上网找答案这是什么情况呢你说的是 RE-Searcher 这个研究大型语言模型虽然很聪明但他们的知识是固定的训练完就不再更新如果问他们最新的新闻或者很专业的问题他们可能会答不上来甚至瞎编答案

为了解决这个问题,研究人员开发了 REsearcher,用强化学习教模型,在需要时自己调用外部搜索系统,比如上网,查资料。强化学习是什么意思?听起来很高大上。其实不复杂,你可以把它想象成训练小狗,小狗做对了,比如坐下,你就给它一块骨头作为奖励,做错了。

就不给强化学体也是这样模型尝试不同的方法根据结果好坏得到奖励或惩罚在 REsearch 里模型会试着搜索不同的关键词看看能不能找到有用的信息如果答案更准确了就相当于得到了奖励慢慢就学会了怎么高效的查资料原来是这样那这个方法有什么特别的地方吗它有个很聪明的设计分成两步走

第一步教模型学会怎么正确调用搜索工具比如输入什么关键词第二步教他怎么用搜索到的信息回答问题而且他不需要复杂的中间步骤只看最终答案对不对这样训练起来更简单

实验结果也很惊人这个方法在一些需要多步推理的问答任务上比传统方法强很多甚至能和一些闭源的大模型媲美太厉害了看来让 AI 学会上网查资料真能解决不少问题

是的,这就像给 AI 装了个外脑,让它在知识不够的时候也能找到答案,特别适合需要最新信息或者专业知识的场景。接下来我们聊聊知识更新,我看到一项研究说,不用修改模型也能让 AI 学到新知识,这是怎么回事?你说的是选择性上下文推理框架,简称 SCR。

通常如果 AI 的知识过时了,大家会想到修改它的内部参数,就像给它动手术,但这个研究发现这种方法可能会搞乱 AI 原有的知识,而且效果也不稳定,于是他们提出了一个新思路,不改模型,而是给它一本参考书,当 AI 遇到问题时,先看看需不需要查书,

如果需要就从外部知识库里找相关信息放在问题旁边一起思考这和直接上网查资料有什么不同吗有点像但更精准 SAR 会先用语意过滤挑出可能有用的信息然后让 AI 再确认一遍确保这些信息真的能帮上忙这样就像是先粗选一堆书再精挑一本最合适的实验证明这种方法在更新知识时比直接改模型更可靠

还能适应连续的知识变化那它有什么实际用处呢比如说新闻里有个新事件 AI 原来不知道用 SCR 就可以临时给它加点背景知识让它回答得更准确而且这种方法不用重新训练模型特别省时省力适合快速应对变化的场景接下来是个很有趣的话题 AI 居然能帮考古学家恢复埃及象形文字这是怎么做到的这项研究叫 HiroOM 确实很特别

埃及象形文字因为年代久远,很多都模糊甚至缺失了以前的方法是用图像识别技术去猜但如果字完全看不见这些方法就没辙了 Hairo Awam 换了个思路,把这当成一个猜词游戏想象你在读一篇文章,有些字被涂掉了你会根据前后文猜出来,对吧?Hairo 就是用语言模型根据周围的象形文字预测缺失的部分那他是怎么猜的呢?

他用一种叫 LSTM 的模型,这种模型特别擅长处理像文字这样有顺序的东西。HaiRom 通过学习象形文字的规律和上下文猜出最可能的内容。实验显示,他在预测缺失文字时准确率超过 44%,而且即使数据很少,也能干得不错。

这对考古学家有什么帮助太有用了考古学家可以拿它当助手分析破损的文物推测原来的意思而且它还能和图像识别技术搭配互相补短板未来可能会让更多古文字重见天日接下来我们聊聊翻译我听说 AI 翻译

是的,这项研究关注如何让大型语言模型更好的翻译法律、医学这类专业文本,他们对比了两种方法,一是给 AI 几个翻译例子,二是给它一本双语字典,结果发现例子总是比字典管用,因为例子不仅告诉 AI 单词怎么翻,还展示了语气和风格。

那这些例子是哪来的呢研究里还对比了两种来源从外部找现成的例子还是让 AI 自己生成

结果是找来的例子效果最好但有趣的是即使 AI 自己生成的例子也能帮一些弱一点的模型把翻译质量提上去接近强模型的水平为什么例子这么重要他们发现例子最大的价值在于教 AI 模仿领域的风格比如法律文件和文学作品翻译时需要的不仅是词还有语感就像你学外语光背单词不行还得看别人怎么用

这让我想到翻译真的不只是换词那么简单对尤其是专业翻译这研究给我们指了条路与其让 AI 死记硬背不如多给它点例子让它自己领悟最后一个话题是关于数学推理我听说有个方法能让小模型变厉害这是怎么回事你说的是 sphere 框架小心语言模型因为参数少且复杂的数学题时常常出错

Sphere 就像给他开了个自学班分三步走先让模型自己试着解题然后找出错误自己改最后再试不同的解法增加经验这听起来像学生做练习题完全正确他还有个聪明的地方用了一种叫简直蒙特卡洛数搜索的技术

简单说就是在解题时只保留最有用的思路扔掉没用的这样既省力气又高效实验结果很惊人用 Sphere 训练的小模型在一些数学测试里甚至能和大型模型一较高下那它有什么实际意义呢?意义很大小模型比大模型更省资源如果能让他们变聪明

我们就能在手机边缘设备上跑更厉害的 AI 比如帮学生解题或者在没网的地方做计算都变得更可行感谢精彩的讲解这期我们聊了五项 AI 研究从让模型学会查资料到帮考古学家猜字再到优化翻译和数学推理真是脑洞大开是的这些研究不仅展示了 AI 的潜力还让我们看到它能怎么解决实际问题

未来 AI 可能会在更多领域大放异彩感谢大家的收听我们下期再见下期见拜拜

AI前沿：AI自主搜索与古埃及象形文字识别 07:27 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：AI自主搜索与古埃及象形文字识别