We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:AI如何“看懂”视频、玩转游戏与生成长文幻灯片?

AI前沿:AI如何“看懂”视频、玩转游戏与生成长文幻灯片?

2025/3/28
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
People
小T
小爱
Topics
小爱:我参与了对OPT-CWM、LongTextAR和FPET三个AI前沿研究的讨论。OPT-CWM通过自监督学习和反事实扰动,在无需人工标注数据的情况下,实现了对视频中物体运动轨迹和遮挡关系的精准分析,刷新了真实世界运动估计的记录。其在机器人领域和视频编辑领域具有广阔的应用前景,但目前仍依赖预训练模型,计算量较大,且需要进一步扩展到其他任务。LongTextAR则利用新型文本二值化器,解决了传统图像生成模型在生成长文本图像时字迹模糊、排版混乱等问题,生成的幻灯片文字清晰度和一致性显著提高,可以自定义字体、颜色等参数,并能同时生成自然图片和文字,实用性强,但对艺术化文字和复杂背景的处理能力仍有待提高。FPET通过减少冗余信息,显著提高了AI学习新任务的速度和效率,降低了内存使用率,特别适用于手机等资源受限的场景,但目前在视觉任务上的效果最佳,其他领域尚需进一步验证,且合并小块的策略可能需要根据任务进行调整。 小T:我参与了对TheoryCoder和MCTS-RAG两个AI前沿研究的讨论。TheoryCoder框架通过双层规划和代码合成,使AI能够学习玩复杂的网格游戏,并能自主生成规则理解游戏世界,在BABA IS YOU等游戏中表现出色,学习的规则可迁移到其他类似游戏中,具有很高的效率和应用潜力,但目前高层规则仍由人工设计,自动化程度有待提高,且计算成本较高,复杂规则可能导致AI卡住。MCTS-RAG框架则结合了蒙特卡洛树搜索和动态检索,使小型语言模型能够处理复杂的知识密集型问题,其性能与大型语言模型GPT-4相当,答案更可靠,不易出现胡说八道的情况,未来可应用于教育、客服等领域,尤其适合资源受限的场景,但由于需要搜索和推理,速度比直接回答慢,且初始检索错误可能影响后续结果。

Deep Dive

Chapters
介绍了一种名为 OPT-CWM 的 AI 方法,该方法通过自监督学习和反事实扰动,无需人工标注数据即可分析视频中的动作,例如物体移动轨迹和遮挡关系。该方法在真实世界视频测试中表现出色,甚至超过了传统方法。
  • OPTCWM 通过自监督学习和反事实扰动理解视频中动作
  • 无需人工标注数据
  • 在真实世界视频测试中表现优异,超过传统方法
  • 可应用于机器人领域和视频编辑

Shownotes Transcript

大家好,欢迎收听太快报,我是小爱。大家好,我是小 T,很高兴我们又见面啦。那么先从一个特别酷的话题开始,AI 如何看懂视频里的动作。我最近刷视频的时候总在想,AI 能不能像人一样看懂视频里发生了什么,比如一个人跑步还是跳舞。今天咱们要聊的第一篇研究好像就跟这个有关。

是的这篇研究标题是 self-supervised learning of motion concepts by optimizing counterfactual 简单来说他们开发了一种叫 OPTCWM 的 AI 方法能自己学会分析视频里的动作比如物体移动的轨迹或者遮挡关系而且完全不需要人工标注数据哇不用人工帮忙这听起来就像 AI 自己当侦探破解视频里的你能给我们讲讲它是怎么做到的吗

当然想象一下你在看一段视频里面有个球滚过草地人类能马上看出球在动草地没动但 AI 要做到这一点通常需要大量标注好的例子告诉他这是移动这是静止而 OPTCWM 的聪明之处在于他用了一种反事实的思路打个比方他会问自己如果我把视频里的球抹掉或者一个位置接下来会发生什么通过

通过预测这些如果的结果他学会了理解动作有点像在玩如果怎样会怎样的游戏这听着挺有趣但具体怎么实现的呢核心是个扰动生成器这个 AI 会生成一些小的改动比如假装球没动或者换了个方向然后预测下一张画面会变成什么样他通过不断优化这些预测逼着自己抓住视频里真正的动作信息研究者还设计了一个信息瓶颈

讓 AI 只關注最關鍵的細節避免被無關的東西干擾結果呢它在真實世界的視頻測試中表現超棒甚至超過了需要人工標註的傳統方法這也太厲害了那它能幹啥實際的事嗎當然能比如在機器人領域它能幫機器人看懂周圍物體的移動軌跡避開障礙物或者在視頻編輯裡自動識別動作生成特效

研究者还说这种方法未来可能还能分析更复杂的视觉信息比如深度或者形状应用前景很广听着真相科幻电影里的技术我还挺好奇它会不会有啥短板

好问题它的确很强但也有局限比如它目前依赖一个预训练好的视频模型计算量不算小如果想用在手机这种轻量设备上可能还得再优化另外它虽然擅长动作分析但要扩展到其他任务比如物体识别还需要更多探索

明白了看来 AI 看懂视频的路还挺长但已经很让人兴奋了接下来咱们聊点不一样的吧 AI 玩游戏怎么样我知道有些 AI 特别会玩游戏像围棋星际争霸都玩得比人强这次的研究是不是也跟游戏有关

没错,这篇研究标题是 Synthesizing World Models for Bioreplanning 他们提出了一个叫 Theory Coder 的框架让 AI 学会玩一些复杂的网格游戏比如 B.I.Is.U.这种需要推理和规划的游戏关键是它不仅会玩还能自己造规则来理解游戏世界造规则吗?

这听起来有点像 AI 自己给自己写游戏攻略具体是怎么回事对差不多就是这个意思 TheoryCoder 用了一种双层规划的思路想象你在玩一个推箱子游戏高层计划可能是先把箱子推到左边低层计划则是先迈一步再推一下他用一种叫 PDDR 的语言来写高层规则再用 Python 代码生成具体的低层动作规则厉害的是这些规则不是人写的

而是 AI 通过观察游戏自己用大语言模型合成的这也太聪明了那他是怎么学会这些规则的呢他会边玩边学比如他先试着推箱子看结果对不对如果预测错了就调整自己的规则研究者还用了一种反事实修正的方法让 AI 对比预测和实际结果慢慢优化结果呢他在 BABA SU 这种变态难度的游戏里成功率和效率都比直接用大语言模型高得多哇

我玩 BABA SU 的时候都头晕这 AI 简直是天才那它有什么特别的应用吗除了游戏这技术还能用在机器人控制上比如让机器人学会在一个新环境里规划路径或者在动态场景中调整策略更酷的是它还能把学到的规则迁移到其他类似的游戏里相当于一次学习多次复用这不就是传说中的举一反三吗不过它

会不会也有啥问题有 它的高层规则现在还是人工设计的自动化程度不够而且用大圆模型合成代码虽然很强但计算成本不低如果规则太复杂 AI 可能会卡住不过总体来说这是个很棒的起点明白了

AI 玩游戏还能帮机器人干活真是一举两得接下来咱们聊点更贴近生活的 AI 能不能帮我做幻灯片我平时做 PPT 最头疼的就是写长段文字既要清晰又要好看这次的研究是不是能帮我解决这个烦恼完全可以这篇研究标题是 Beyond WordsAdvancing Long Text Image Generation via Multimodal Autoregressive Models

他们开发了一个叫 Long Text LR 的模型,专门用来生成带长段文字的图像,比如幻灯片或者文档页面。带长段文字的图像,这听起来正是我需要的,它是怎么做到的?传统的图像生成模型,比如 Daylort 擅长画图,但一道长段文字就露怯,经常字迹模糊或者排版乱七八糟,Long Text LR。

XAR 的突破在于他用了一种新的文本二质化器把文字细节抓得特别准打个比方普通模型像是用粗画笔描字这个新方法像是用锡钢笔把每个字母都刻画得清清楚楚就比喻我懂

那他还能不能让我挑字体颜色啥的能 non-texted r 特别灵活你可以告诉他用黑色送体字号 20 组对齐他就照办研究者测试了他跟其他模型的对比结果发现他生成的幻灯片文字清晰度和一致性都甩开对手一大截

连微软自己的 GPT-4 O 加 DALO 组合都比不过这也太实用了吧我都能想象以后开会直接让 AI 生成一堆漂亮幻灯片了那它还有啥特别的地方吗它还能同时生成自然图片和文字比如你想要一张带风景的幻灯片上面写着会议议程它也能搞定而且因为它专注于文字连自然图像的质量都没落下真挺全能的听着就像个全能助手

不过他会不会也有啥小毛病有比如他现在对特别花哨的艺术画文字比如手写风可能还不太行而且要把文字和复杂背景完美融合也有点挑战不过对于日常办公需求他已经很够用了这已经让我很心动了看来以后做 PPT 能省不少力气接下来还有什么好玩的吗我听说 AI 有时候学东西挺慢的尤其是要适应新任务这次有没有什么研究能让他学得更快

有这篇研究标题是 Faster Parameter Efficient Tuning with Token Redundancy Reduction 他们提出了一个叫 FPET 的方法让 AI 在学习新任务时既快又省资源快又省资源这听起来很适合手机或者小型设备它是怎么做到的对 FPET 的核心是减冗余想象 AI 处理一张图片时会把图片拆成很多小块来分析

但这些小块里其实有很多重复信息 FPET 就像一个聪明管家把这些重复的部分合并掉只留下关键信息这样 AI 处理起来就更快用的内存也更少有点像整理房间把没用的东西扔掉只留精华没错他们还设计了一个可微分匹配模块让 AI 自己学会怎么合并这些小块

结果呢 FPET 比传统方法快了差不多 20%内存用量也降了 40%而且精度一点没丢这也太高效了吧那它能用在哪些地方呢特别适合需要快速适应的场景比如手机上的图像识别或者边缘设备上的实时监控研究者还说这种方法未来可能还能用到语言处理上潜力很大听着真不错不过它

会不会也有啥需要改进的地方有它现在效果最好是在视觉任务上其他领域还能验证而且合并小块的策略可能的根据任务调整不然可能会丢掉一些细节不过总体来看已经很实用了

明白了,AI 学得快,我们用起来也方便。最后一个话题是什么?我知道像 GPT-4 这样的大模型很厉害,但它们又大又费电,有没有办法让小模型也变聪明?有办法,这篇研究标题是 MCTSRAG Enhancing Retrieval Augmented Generation with Monte Carlo Tree Search,他们提出了一个

用 MCTSRAG 框架,让小型语言模型也能处理复杂的知识问题小型模型也能变厉害,这听着有点不可思议,怎么做到的?秘诀是搜索加检索,普通的小模型知识有限但 MCTSRAG 让他学会一边思考一边从外部找答案打个比方,就像你在考试时不会做题,但可以翻书找线索

用了一种叫蒙特卡洛数搜索的方法探索不同的思考路径再加上动态检索确保答案靠谱这不就像个会查资料的小助手吗效果怎么样非常好他们在一些知识密集的任务上测试比如回答复杂的网页问题小模型用上 MCTSR-AG 后表现居然跟 GPT-4O 差不多而且因为它会多步突破

推理還不容易胡說八道答案更可信這也太酷了那他能幫我幹啥比如你問他哪個國家的森林覆蓋率最高他能一邊推理一邊上網查最後給你一個準確答案未來可能還能用在教育、客服等領域特別適合資源有限的場景聽了真省心不過

会不会也有啥缺点有因为要搜索和推理它比直接回答慢一些而且如果一开始查错了可能会影响后面不过研究者已经在优化了未来应该会更好明白了小模型也能大放异彩真是让人期待好了今天的太快报就到这里咱们下期再见带大家继续探索 AI 的奇妙世界下期见拜拜