We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:从“坏”数据到跨语言推理

AI前沿:从“坏”数据到跨语言推理

2025/5/10
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive Transcript
People
小T
小爱
Topics
小爱:我参与了对五篇AI前沿论文的解读,这些论文涵盖了强化学习、上下文学习、跨语言推理以及数据处理等多个方面。例如,第一篇论文提出了RL^V框架,通过结合推理器和验证器,显著提升了AI在数学推理任务上的准确率和效率。第二篇论文则深入研究了上下文学习的机制,发现AI仅需少量注意力头和低维子空间就能完成简单的加法运算,并具有自我校正能力。第三篇论文颠覆了传统认知,证明了适量有毒数据可以增强AI的可控性。第四篇论文探讨了跨语言推理,发现测试时扩展可以提升以英语为中心的模型的多语言推理能力,但低资源语言仍面临挑战。第五篇论文则提出了一种名为InvICL的算法,通过‘留一法’解决了上下文学习中顺序敏感的问题,提高了AI的性能和泛化能力。 小T:我的主要工作是对上述论文进行详细的讲解和补充说明。例如,在讲解RL^V框架时,我用学生做题检查答案的例子来类比AI的推理和验证过程,使之更容易理解。在讲解上下文学习时,我用‘三个小脑袋管家’的比喻来描述AI的注意力机制,并解释了六维子空间的作用。在讲解有毒数据时,我用‘医生研制疫苗’的例子来解释为什么适量有毒数据可以增强AI的可控性。在讲解跨语言推理时,我强调了低资源语言所面临的挑战。最后,在讲解InvICL算法时,我用‘公平的裁判’来比喻该算法如何解决AI的顺序偏见问题。

Deep Dive

Shownotes Transcript

大家好 欢迎收听太快报 我是小爱大家好 我是小 T 很高兴我们又见面了好的 咱们先从第一篇开始吧标题是 Putting the value back in RL Better test timeScaling by unifying cell and reasoners with verifier 听起来有点拗口这是在干啥小爱这篇确实有点硬核 但核心想法很酷

简单说它解决了一个问题现在的 AI 模型在推理时比如解数学题常常需要试做很多次靠大量采样来提高准确率但这很费计算资源

这篇论文提出了一种叫 RLV 方的方法,让 AI 不仅会推理,还会自己验算,就像学生做完题后检查答案一样,这样能大幅提升效率,少算几遍也能拿到高分。哇,AI 还能自己检查作业具体是怎么做到的。想象一下你让 AI 解一道数学题,它不仅给出答案,还会判断这个答案对不对?

不对 问文的创新是把这两个能力推理和验证合二为一训练在同一个模型里传统方法里 AI 推理后要靠另一个模型来验证费时费力而 Euler-Weifang 用强化学习的数据让 AI 一边学推理一边学怎么判断答案的对错结果呢 它在数学任务上准确率提升了 20%以上计算效率更是高了 8-32 倍

这效率提升也太夸张了,有没有啥例子能让我更明白点?当然假设你在考试时间有限,只能写一个答案。ROV 方就像一个聪明的学生,不仅能快速写出答案,还能立刻检查一遍,确保没算错。论文测试了数学题库 Math,发现 ROV 方能用更少的思考次数得到比传统方法更准的答案。

而且他还能动态调整思考时间难题多想一会儿简单题一秒搞定特别聪明听起来像个学霸 AI 不过有没有什么不足的地方好问题目前这方法主要在数学推理上测试较多其他复杂任务比如写代码或长篇阅读理解效果还不确定另外训练时有些参数需要仔细调稍不注意可能影响效果未来如果能让 AI 在验证时解释为啥对或错会更有用期待 AI 学霸更全能

接下来第二篇 Understanding in Context Learning of Addition VR Activation Sub-Spaces 这个激活子空间听起来很科幻 是啥意思这篇确实有点像探秘 AI 大脑它研究的是上下文学习也就是 AI 通过几个例子就能学会新任务的能力比如教它加 5 给几个例子 2 加 5 等于 7 3 加 5 等于 8 它就能推导出新输入 4 加 5 等于 9

论文发现这种能力竟然只靠模型里三个注意力头来完成,这些头的激活子空间,就像 AI 大脑里专门管家法的小房间信息,都存在一个六维的空间里。三个小脑袋管家法,那这个六维空间是干嘛的?

这个六维空间超级有趣它分成两部分四维用来计个位数用类似三角函数的模式编码像个数字时钟二维管十位数负责看数字的大致大小更神奇的是 AI 从例子中提取信息时有一种自我校正机制如果前面的例子有点噪声后面的例子会帮它纠错不是简单平均而是像团队协作一样优化

这不就是 AI 的微型计算器吗有没有实际用处绝对有理解这些子空间能帮我们设计更高效的 AI 比如知道加法只靠几个头我们就能针对性优化模型省计算资源长远看这还能启发我们破解 AI 的黑箱问题

弄清他到底怎么思考的不过这篇只研究了简单加法复杂任务的此空间还得继续挖好期待 AI 大脑被彻底解锁第三篇更颠覆 When bad data leads to good models 坏数据还能造好模型这是什么反常识的操作这篇确实有点以毒攻

这也太反直觉了为啥坏数据会有这种效果核心原因是特征表征

如果 AI 從沒見過毒性內容,它對毒性的理解就很模糊,很難被引導不輸出毒性,加入適量毒數據後,AI 對毒性的概念更清晰像在腦子裡畫了個清楚的界線,後續去毒時就更容易擦掉這部分勒文用了個比喻,就像讓醫生多見幾種病毒,才能更好研發疫苗這個比喻我懂,那有沒有風險?

毕竟是故意加读对风险是有的如果读数据比例太高 AI 可能学坏变得更难控制而且这招目前只在读信上试过其他问题比如偏见或假新闻效果还不清楚未来的更谨慎的实验确保安全嗯

安全第一第四篇 cross-lingual reasoningthrough test time scaling 讲的是 AI 跨语言推理听起来很国际化这是怎么回事这边研究了 AI 如何用一种语言学到的推理能力去解决其他语言的问题

比如一个主要用英语训练的 AI 能否解中文或是斯瓦西里语的数学题论文发现只要给 AI 更多思考时间推理时扩展它在多种语言上的表现都能提升尤其对大模型效果更好一个 14 亿参数的模型甚至超过了 32 亿参数的对手哇 AI 还会多想一会儿那它怎么处理非英语问题嗯

有趣的是即使输入是其他语言 AI 的内心系还是用英语它会把非英语问题引用过来然后用英语推理像是边翻译边思考他们还试了强制 AI 用其他语言推理发现高资源语言比如中文或法语效果不错但低资源语言比如斯瓦西利语性能就差很多思考还更费劲这有点不公平低资源语言咋办

確實是個大問題 論文指出 低資源語言在 AI 推理中面臨雙重劣勢性能差 效率低這跟語言數據的分佈不均有關 未來可能需要更多語言訓練數據或者專門為低資源語言優化模型不過 論文也提醒 AI 在文化相關的任務上表現不佳比如需要本地常識的問題 說明跨語言推理還有很大提升空間

在 AI 的世界公民之路还长最后一篇 Rethinking Invariance in Context Learning 讲的是不变性听起来很抽象能不能讲的接地气点没问题上下文学习有个痛点 AI 对于例子的顺序很敏感比如教它分类换个例子顺序答案可能就不一样了

这篇论文想让 AI 无视顺序提出了一种叫 INVICL 的方法,它的核心是让 AI 在学习时既能从每个例子中挖出信息,又能让例子之间互相讨论,同时确保不偷看答案。结果呢,INVICL 在很多任务上比传统方法更准。

还能适应新场景这就像让 AI 变成一个公平的裁判不偏心具体咋做到的他们设计了一种留意法每次编码一个例子时只看其他例子的信息不看自己的答案这样保证公平然后通过一种聪明的注意力研码让 AI 在一次计算中完成所有操作效率很高实验显示 NVICL 不仅对顺序不敏感还能处理更长的例子

甚至在新领域任务上也更稳听起来很厉害有没有啥缺点有主要是计算成本因为要复制输入序列内存用量会增加尤其对大模型可能更明显另外这方法在超复杂任务上的表现还得再验证不过他为解决 AI 的顺序偏见开了个好头五篇论文听下来真是脑洞大开今天的太快报就到这里感谢小 T 的精彩讲解咱们下期再见下期见拜拜