We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:数字水印、知识追踪和检索链增强生成

AI前沿:数字水印、知识追踪和检索链增强生成

2025/1/28
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive Transcript
Topics
小爱/小T:GaussMark 是一种在AI模型权重中嵌入高斯噪声水印的新方法,它高效、低延迟、高鲁棒性,并且对文本质量影响极小。其创新之处在于将水印直接嵌入模型权重,而非修改生成内容,为AI内容监管提供了新思路。检测水印则利用高斯独立性检验等统计方法结合模型生成文本的内部数据进行。虽然存在一些局限性,例如并非无损水印且需要较长文本进行可靠检测,但其高效性和鲁棒性使其成为AI水印技术领域的重要进展。 小爱/小T:多模态处方性深度学习框架PNN能够同时处理结构化和非结构化多模态数据(如文字、图像、表格数据),并给出具体的行动建议,如同医生开处方一样。在TAVR手术和肝脏外伤治疗中,PNN分别将并发症率和死亡率降低了32%和40%以上,展现了其在复杂医疗决策中的巨大潜力。为了提高模型的可解释性,PNN利用知识蒸馏技术将复杂的处方知识迁移到更简单的模型,使其决策过程更加直观易懂。

Deep Dive

Shownotes Transcript

听众朋友们大家好 今天是除夕先给您拜年了欢迎收听最新一期的太快报 我是主持人小爱大家好 我是小 T 给大家拜年了很高兴又和大家在太快报相遇 一起聊聊 AI 领域的最新进展最近 AI 技术发展真是太快了 感觉每天都有新东西冒出来像最近特别火的 AI 聊天机器人写文章搞创作 感觉啥都会

但问题也来了 AI 写的东西和人写的东西有时候普通人根本分不清这会不会带来一些问题小爱你这个问题问得非常好这正是我们今天这期节目要重点探讨的话题 AI 生成内容的水印技术你想想现在 AI 写作能力这么强如果有人用 AI 生成假新闻抄袭别人的作品或者搞一些恶作剧普通人很难辨别真假确实会造成很多困扰

甚至引发严重的社会问题是想想就觉得有点可怕那有没有什么办法能区分哪些内容是 AI 生成的哪些是人写的呢科学家们也在积极想办法今天我们要聊的第一篇论文就提出了一个非常有意思的方案叫做 Gothmark 简单来说就是给 AI 模型打上水印就像给钞票加防伪标识一样给 AI 模型打水印

听起来好神奇怎么打呢是在 AI 生成的内容里加一些特殊的标记吗传统的 AI 水印技术确实有点像你说的是在 AI 生成的内容里做手脚

比如在文字中偷偷改动一些词语加一些人眼看不出来但是机器可以识别的按键但是这种方法有一些问题就像给文章润色一样改动 token 可能会影响文章的流畅度和质量而且有时候检测起来也比较慢效率不高那 gasmark 有什么不一样呢 gasmark 的厉害之处在于它不改动 AI 生成的内容而是直接在 AI 模型的大脑里做文章

你可以把 AI 模型想象成一个非常复杂的大脑里面有很多神经元和连接 Galaxy Mark 就像是在这些连接上悄悄地均匀地撒上一些非常细微的高斯噪声高斯噪声听起来有点专业

你可以简单理解为一种非常细微的随机扰动就像给平静的水面轻轻撒了一把细沙几乎看不出来变化但是仔细观察还是能发现一些痕迹 Gasmarket 利用这种高斯噪声来给模型打水印这也行在模型大脑里加点噪声就能当水印这也太反直觉了吧

是,这正是 Gasmart 的创新之处。论文的作者发现大型语言模型其实非常皮实,对这种轻微的噪声并不敏感。也就是说,加了水印的模型,生成文本的质量几乎不受影响,还是那么流畅,自然。那怎么检测这个水印呢?

检测水印的时候就需要用到一些秘密武器了 Gasmark 利用了一种叫做高斯独立性检验的统计方法在结合模型生成文本时的一些内部数据就能判断这个模型是不是被加了水印听起来有点像侦探破案要找到模型留下的蛛丝马迹

没错 有点那个意思 Gaussmark 的优点还真不少首先它非常高效加水印和检测水印都很快几乎不增加额外的计算负担其次它对文本质量的影响非常小几乎可以忽略不计更厉害的是它还有一定的鲁棒性即使别人对 AI 生成的文本进行一些修改比如增删文字翻译等等水印也不容易被破坏听起来 Gaussmark 好像还挺靠谱的那它有什么缺点吗

当然任何技术都不是完美的 GasMark 也存在一些局限性比如它不是无损水印理论上会对模型的输出分布产生一些微小的影响虽然实际影响很小另外相比于一些 Token 级别的水印 GasMark 可能需要更长的文本

才能更可靠地检测出水印还有它的检测过程需要访问模型内部的权重属于一种白盒检测在一些场景下可能会受到限制总的来说 Gothmark 这种给 AI 模型大脑加水印的思路还是挺有意思感觉就像给 AI 模型加上了一个身份证以后就能更好的追踪和管理 AI 生成的内容了

是的 Gasmark 为我们提供了一个全新的视角让我们意识到水印技术不一定非要在生成内容上做文章也可以深入到模型的内部结构中去寻找解决方案这对于未来 AI 水印技术的发展具有重要的启发意义刚刚我们聊了给 AI 模型加水印防止 AI 造假

接下来我们再看看另一篇有趣的论文,这篇论文是关于多模态处方性深度学习,这个名字听起来就很高大上,小 T 你能给我们通俗的解释一下吗?没问题,多模态处方性深度学习关键词是多模态和处方性,多模态指的是我们可以处理多种不同类型的数据,比如文字、图像表格数据等等。

处方性指的是模型不仅仅是预测未来还能给出具体的行动建议就像医生给病人开处方一样哦 我明白了就是说以前的 AI 模型可能只能告诉你这个人可能会生病而处方性 AI 模型还能进一步告诉你应该给他开什么药怎么治疗是这个意思吗非常形象这篇论文提出的 PMNPrescriptive Neural Network

处方性神经网络框架就是这样一个多面手加好医生它最大的创新之处在于能够同时处理各种各样的数据然后给出最佳的行动方案各种各样的数据都能处理哪些数据呢比如在医疗领域 PNN 可以同时分析病人的病例报告文字医学影像图像

以及各种体检指标表格数据综合所有这些信息 PN 就能为医生提供更精准的治疗建议听起来好厉害那 PN 在实际应用中表现怎么样呢?论文中给出了两个非常震撼的真实案例一个是在 TVL 手术经导管主动脉半置患术中使用 PN 的这治疗方案可以将术后并发症的发生率降低 32%

另一个是在肝脏外伤治疗中可以将死亡率降低 40%以上哇 降低这么多 这简直是医学界的福音是 这说明 PN 在处理复杂医疗决策问题上潜力巨大而且 PN 不光在处理多模态数据上表现出色在处理传统的表格数据时也和其他顶尖的处方性模型不相上下

甚至更胜一筹这么强大的模型会不会很难理解它的决策过程毕竟深度学习模型一直被诟病是黑箱你问到了一个关键问题论文的作者也考虑到了模型的可解释性问题他们巧妙地利用了一种叫做知识蒸馏的技术把偏轮的处方知识迁移到一个更简单的模型最优分类数 optic 上知识蒸馏最优分类数又是一些新名词

简单来说,知识蒸馏就像是老师把复杂的知识用更浅显易懂的方式教给学生,最优分类数,就像是一个决策数,它的决策过程非常直观,易于理解。通过知识蒸馏,作者们成功地让 PNN 变得可解释了。

而且性能几乎没有下降太棒了既有高性能又兼顾可解释性 PNN 真的是一个非常实用的框架是的 PNN 的出现让我们看到了深度学习在决策优化领域的巨大潜力它不仅可以帮助医生做出更明智的治疗决策未来还可以应用于零售金融广告等各种领域

为各行各业的决策者提供更智能的处方接下来我们再来看看第三篇论文这篇论文是关于知识追踪的知识追踪听起来好像是追踪学生掌握知识的情况你的理解很到位知识追踪 KG 技术就是用来追踪学生在学习过程中知识掌握程度的变化它在智能辅导系统在线教育平台中应用非常广泛

那这篇论文提出了什么新的东西呢?这篇论文提出了一种新的深度知识追踪模型叫做 DKTR。作者们认为,目前很多深度学习知识追踪模型为了追求更高的预测准确率,牺牲了一些适用性和全面性。适用性和全面性?

怎么理解呢适用性指的是模型在实际教育场景中是否好用有些模型可能在实验室里效果很好但实际应用时却有很多限制全面性指的是模型对学生知识状态的刻画是否足够细致全面嗯

我有点明白了有些模型可能只关注预测学生做题对不对但不太关心学生具体掌握了哪些知识哪些知识还比较薄弱是的 DKTR 的目标就是要兼顾适用性和全面性它基于一种叫做 XLSTM 的新型神经网络架构

这种架构比传统的 LSTM 更强大更适合处理大规模的学习数据 XLSTM 有什么特别之处吗 XLSTM 在并行计算存储决策和存储容量方面都比 LSTM 更优秀

这使得 DKTR 能够更高效地处理海量的学习数据更好地追踪学生的知识状态除了架构上的改进 DKTR 还有其他创新吗 DKTR 的另一个亮点是它融入了一些教育心理学的理论比如它使用了 Rush 模型来更好地表示学生的输入特征还结合了项目反应理论 RT 来实现更可解释的输出 Rush 模型 RT 听起来好复杂

别担心简单来说这些理论的应用让 DKTR 不仅能预测学生做题的对错还能分析学生对知识的熟悉程度区分学生掌握的知识是熟悉还是不熟悉这有什么用呢很有用比如老师可以通过 DKTR 更深入地了解学生的知识掌握情况知道学生哪些知识点掌握得比较牢固

哪些知识点还需要加强这样就能更精准地进行个性化教学听起来 DKTR 比之前的知识追踪模型更懂学生了是的 DKTR 在多个大规模教育数据集上都取得了比其他模型更好的效果证明了它的有效性 DKTR 的出现为我们构建更智能更个性化的教育系统迈出了重要一步最后我们来聊聊今天第四篇论文

这篇论文是关于检索链增强生成的,这个名字有点长,简称是 CORAG。CORAG 听起来好像和检索有关。没错,CORAG 是一种新的检索增强生成 Retrieval Augmented Generation RAG 方法。RAG 技术大家应该不陌生了,它是一种将外部知识库和大型语言模型结合起来的技术。

可以让 AI 模型在生成文本时能够查阅外部资料避免胡说八道传统的 REG 方法通常只进行一步检索就是模型在生成答案之前只检索一次相关的信息但是对于一些复杂的问题一步检索可能不够

模型需要像人一样一步一步的检索推理才能找到最终答案就像我们平时解决复杂问题一样先查一些资料分析一下再根据新的信息继续深入查找直到找到答案完全正确 CORAG 就是模拟了人类这种恋世思考的过程它让模型能够进行迭代检索也就是多次检索动态的调整

检索策略逐步逼近最终答案听起来 CORAG 比传统的 RAG 更聪明了那它是怎么实现迭代检索的呢 CORAG 的关键在于动态查询重构模型在检索过程中可以根据已有的信息不断地调整和优化检索的关键词就像我们搜索信息时会不断修改搜索词一样

这个功能很实用有时候我们一开始搜索词可能不太准确需要不断调整才能找到想要的结果是的为了训练 CORAG 论文的作者还提出了一种新的数据增强方法叫做拒绝采样这种方法可以自动生成中间检索链让模型学习如何在检索过程中逐步推理拒绝采样听起来有点抽象你可以简单理解为一种试错的方法

模型在生成检索链的过程中会尝试不同的检索路径,如果发现某条路径不太好,就拒绝这条路径尝试新的路径,最终找到一条最佳的检索链。有点像摸着石头过河的感觉。很形象。COAG 在多跳问答任务中表现非常出色,比其他强大的基线模型准确率提高了 10 个百分点以上。

在 Kilt 基准测试中,也在多个知识密集型任务上取得了最领先的水平。太厉害了,看来 CORIG 这种迭代检索的思路确实能显著提升 RAG 模型的性能。是的,CORIG 的出现为 RAG 技术的发展开辟了新的方向,让我们看到通过模拟人类的思考过程可以让 AI 模型变得更加智能、更加强大。

听了小 T 今天的介绍感觉 AI 技术真是日新月异各种新奇的想法和技术不断涌现今天的太快报又让我学到了很多新知识感觉对 AI 的未来充满了期待是的 AI 领域每天都在进步作为太快报的主持人我们也会持续关注 AI 领域的最新动态为大家带来更多有趣有料的科技资讯感谢大家收听本期太快报我们下期再见下期见 拜拜