We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:从图模型到自奖励语言模型

AI前沿:从图模型到自奖励语言模型

2025/3/7
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
People
小T
Topics
小爱:本期节目讨论了五项AI前沿研究,涵盖图模型、自奖励语言模型、高效搜索算法等多个方向,展现了AI在不同领域的突破。这些研究都用创新的方式解决实际问题,例如PromptGFM让语言模型学会处理图数据,基于过程的自奖励方法提高了语言模型的数学推理能力,SoftMatcha算法实现了在亿级语料库中快速查找语义相似模式等。 小爱:这些研究成果不仅在各自领域取得了显著进展,也为未来AI的发展提供了新的思路和方向,例如,PromptGFM的图词汇表和跨图适应性,基于过程的自奖励方法的步步推理和自我评分机制,以及SoftMatcha算法的语义和高效索引结合等,都为后续研究提供了宝贵的经验和借鉴。 小爱:此外,关于语言模型自我提升的认知行为研究,揭示了验证、回溯等四种习惯对模型自我改进的重要性,这为我们理解和设计更有效的AI学习机制提供了新的视角。总的来说,这些研究成果令人兴奋,展现了AI技术的巨大潜力和未来发展方向。 小T:本期节目介绍的五篇论文,分别从图模型、自奖励语言模型、语言模型作为评判者、高效语义搜索以及语言模型的认知行为四个方面,展现了AI技术在不同方向上的突破。PromptGFM通过巧妙的指令设计,让语言模型能够处理图数据,并提高了跨图适应性;基于过程的自奖励方法,通过步步推理和自我评分,显著提升了语言模型在数学推理上的能力;而将语言模型作为评判者,则发现利用判断分布的平均值比单一答案更准确,并且逐步推理有时反而会降低效果。SoftMatcha算法则实现了在亿级语料库中快速查找语义相似模式,为信息检索带来了新的效率。最后,关于认知行为的研究,揭示了验证、回溯等四种习惯是语言模型自我提升的关键,为AI模型的训练和优化提供了新的思路。 小T:这些研究成果共同展现了AI领域蓬勃发展的态势,也为我们理解和应用AI技术提供了新的视角。例如,PromptGFM在处理图数据方面的创新,为解决复杂网络问题提供了新的途径;基于过程的自奖励方法,则为构建更智能、更可靠的AI系统提供了新的方向;而SoftMatcha算法的高效性,则为大规模数据处理提供了强有力的工具。这些研究成果不仅具有重要的理论意义,也具有广泛的应用前景,值得我们深入研究和探索。 小T:总而言之,这些研究成果都具有很高的创新性和实用性,为AI技术的发展提供了新的动力和方向,也为我们对AI技术的理解和应用带来了新的启示。

Deep Dive

Chapters
本部分介绍了PromptGFM论文,该论文提出了一种新方法,让语言模型通过指令模拟图神经网络处理图数据,并通过创造图词汇表提升模型的跨图适应性。实验表明,该方法在节点分类和链接预测任务上表现出色。
  • PromptGFM通过指令让语言模型模拟图神经网络的工作方式
  • 发明了一种图词汇表,将节点转换成语言模型可理解的词语序列
  • 在节点分类和链接预测任务上表现一流,并能跨不同图使用
  • 处理不同类型的图时可能表现不佳,例如从社交网络切换到生物网络

Shownotes Transcript

大家好,我是小爱,欢迎来到太快报今天我们要聊的是 AI 领域里五项令人兴奋的研究成果从图模型到语言模型的自我进化每一项都充满了新奇和启发你觉得今天的内容有什么特别之处?

大家好 我是小 T 這次的內容特別在它展示了 AI 如何在不同方向上突破極限無論是讓語言模型處理圖數據還是讓他們自己給自己打分甚至在海量文本中快速找到語意相似的模式

这些研究都在用创新的方式解决实际问题咱们马上开始吧第一个话题标题是 LMSGN Graphic Vocabulary Learning for Text Attributed Graph Foundation 听起来很酷标题里有图和语言模型能不能先对我们讲讲什么是图基础模型

当然图基础模型是专门处理图数据的 AI 模型图数据就像一张网比如社交网络里的人和他们的关系节点是人边是朋友关系而语言模型呢我们熟悉的像 ChatGPT 主要处理文字这篇论文的厉害之处在于它让语言模型学会了处理图数据相当于给语言模型装了一双看图的眼睛这听起来真有趣具体是怎么做到的呢论文提出了一个叫 Prompt

他通过给语言模型设计特殊的指令让它在文字世界里模仿图神经网络的工作方式图神经网络会让节点通过编和邻居聊天更新自己的信息 PromptGFM 就用文字指令告诉语言模型怎么模拟

这个过程比如想象你在社交网络里通过朋友的动态了解更多信息这个模型就让语言模型学会了类似的信息传递太形象了那它比传统方法有什么特别的好处传统的做法是先用图神经网络处理图

再用圆模型处理文字然后硬把两者的结果拼在一起这样容易丢信息像拼图缺了块而 PromptTFM 直接在文字空间里完成所有工作图和文字的融合更自然信息保留得更好

还有什么亮点吗?他还发明了一种图词汇表以前图里的节点会被当作语言模型不认识的陌生词限制了它的能力现在,TomJ.FM 把节点变成语言模型能懂的词语序列就像给每个节点起了个名字这样模型就能在不同的图和任务之间灵活切换适应性大大提高听起来很实用实验结果怎么样?

实验显示 PROMPTGEFM 在节点分类和链接预测任务上表现一流比如它能预测社交网络里谁会成为朋友而且还能跨不同图使用比以前的方法更聪明它还减少了语言模型生成胡乱答案的问题完美

不过有没有什么不足的地方呢有他在处理完成不同的图时有时会表现不佳比如从社交网络跳到生物网络可能会水土不服而且他目前最擅长处理带文字的图如果图里只有结构没文字就有点抓瞎了

明白了还是有很多潜力可以挖掘接下来是 Process-Based of Rewarding Language Models 听起来像是语言模型自己当老师自讲力是什么意思自讲力就是让语言模型自己给自己打分不用人类帮忙传统的训练需要人工标注比如告诉模型哪个答案好但这很费力自讲力让模型自己判断自己的答案自我改进那这篇论文是怎么让他变得更聪明的

他提出了基于过程的自讲力尤其针对数学推理这种复杂任务以前的自讲力只看最终答案对不对但数学题光看答案不行过程更重要所以他们让模型一步步推理每步都自己检查对错像老师批作业一样这个自己检查是怎么实现的他们用语言模型当评判者不仅看最后结果还看每一步的推理这样模型能从每一步学到东西

比如解一道题错了,中间一步,他会知道哪里出了问题,而不是只知道答案不对这确实很聪明,效果如何?效果很棒在多个数学测试中,比如小学数学的奥林匹克竞赛题模型通过几次自我调整准确率大幅提高而且这种方法对大大小小的模型都适用,从 7 亿参数到 720 亿参数都行有没有什么挑战?

有,模型刚开始的能力会影响效果,如果起点太低,进步可能慢一些。还有实验指示了几轮,调整更多轮次能不能更好,还不确定,计算资源需求也不小。看来是条潜力无限的路。谢谢的分享。第三个话题是,improving LL method judge inference with the judgment distribution。语言模型还能当评论。对,现在常常的用语言模型来评判其他模型的回答,比如哪个更好。

听起来很有道理

实验证明了吗?证明了。在各种评分任务中,比如单个评分,两种比较平均值都比单一答案准。他们还发现如果考虑风险厌恶,倾向保守判断效果更好。还有什么意外发现?有件挺意外的事。通常让语言模型一步步推理能提高能力,但在当评委时这种方法反而会让判断太确定,丢掉不确定性信息准确性反而下降。

不用这种方法效果更好真有趣有什么改进空间吗目前只是了文本评分多模态数据像图片声音还没设计还有他们没研究语言模型给出的理由分布可能也有价值明白了这个评论模型开了新思路谢谢第四个话题是 soft metrasoft and fast pattern metrafor billion scale corpus searches 听起来像个快速搜索工具它是干嘛的

Southmash 也是个语义侦探,能在海量文本里快速找到语义相似的模式比如你在维基百科里找开心的表达,它不仅能找 happy,还能找到 joy 之类的敬意词这和普通搜索有什么不同?

真聪明

有哪些应用呢他在英语和日语维基百科里能挖出有害内容还能分析拉丁语这种形态复杂的语言论文还提供了在线演示大家可以试试有没有什么局限目前他擅长词的相似性但对句子结构变化比如词序不同处理还不够好为之词也是个挑战看来是个很实用的工具

最后一个话题是 Cognitive Behaviors that Enable Self-Improving Reasoners or Four Habits of Highly Effective Stars 这里的四种好习惯是什么?论文找出了语言模型自我提升的四个关键习惯验证、回溯、设定子目标和逆向推理就像人类解难题时会检查答案回想起来不错了分布目标从结果倒推这些习惯怎么帮模型变聪明?

他們對比了兩個模型一個是千萬天生有這些習慣另一個是來碼最初沒有在一個數字遊戲里千萬進步很快來碼卻停滯後來他們用帶這些習慣的例子引導來碼他也開始進步了那怎麼引導的

他们给莱玛看一些示范,里面有验证和回溯的步骤,更有趣的是即使示范的答案错了,只要过程有这些习惯,莱玛还是能学好,这说明过程比结果更重要。太意外了,还有什么发现?他们还发现通过调整训练数据,让莱玛多接触这些习惯,她最终能跟千文一样厉害,这说明初始能力可以后天培养。

有没有改进空间目前只是了一个游戏任务其他复杂任务还没验证四个习惯可能也不是全部未来可以找更多这让我对 AI 的学习能力更有信心了本期太快报到这里就结束了我们聊了五篇前沿论文你觉得哪一部分最打动你我觉得每一篇都有惊喜

PromptGFM 让语言模型看懂图,Sophne Cheche 在一级文本里找线索,还有自讲历和认知习惯的研究,展现了 AI 如何像人一样学习和进化,这些突破让我对 AI 的未来充满期待。说得太好了,谢谢大家的收听,希望本期内容能激发您的好奇心,我们下期再见。下期见,拜拜。