We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：AI电影梦工厂、ANN的ID压缩与视频分割学习

2025/1/26

AI可可AI生活

AI Deep Dive AI Chapters Transcript

People

小

小T

Topics

小T：我参与了对AI电影制作、向量ID压缩、视频分割和贝叶斯神经网络预测置信度等四个方面的研究讨论。在AI电影制作方面，我介绍了FilmAgent多Agent框架，它通过将电影制作分解为创意开发、剧本写作和摄影三个阶段，并由不同的Agent分别负责，实现了虚拟3D空间中端到端的电影自动化制作。即使使用性能较弱的模型，FilmAgent也能通过有效的协作机制超越单Agent系统，展现了多Agent协作在复杂任务中的优势。FilmAgent在故事连贯性、叙事和物理规律方面表现更好，而与之相比，Sora则更灵活，更能生成天马行空的画面。在向量ID压缩方面，我介绍了一项研究，该研究提出了一种基于ANS和小波树的向量ID无损压缩方法，可以在不影响近似最近邻搜索性能的前提下显著减少索引的存储空间，为海量数据检索提供了更高效的方案，实验结果表明，该方法可以将向量ID压缩高达7倍，且对搜索速度几乎没有影响。在无监督视频对象分割方面，我介绍了一种利用视频中物体的点轨迹信息和“共同命运”原则进行分割的新方法。该方法的核心思想是将运动轨迹相似的点分组到一起，在无监督视频对象分割任务上取得了state-of-the-art的结果，避免了传统方法中一些计算量很大的步骤，提高了效率。在贝叶斯神经网络预测置信度方面，我参与讨论了对贝叶斯神经网络预测置信度的质疑。研究发现，过度参数化的贝叶斯神经网络可能无法产生“自信”的预测，后验预测分布可能是多模态的，且不确定性不一定随数据量增加而收缩，提醒我们谨慎对待贝叶斯神经网络的“置信度”估计。最后，我还讨论了关于神经切线核(NTK)理论的研究，该研究通过实验验证发现NTK理论中的“等价定理”在实践中可能并不成立，NTK模型在增加网络层数时性能提升不明显，甚至不如高斯过程核，暗示NTK可能未能充分解释神经网络的训练过程，促使我们重新审视神经网络的理论框架。小爱：我作为主持人，主要负责引导话题，提出问题，并对小T的讲解进行总结。我参与了对AI电影制作、向量ID压缩、视频分割和贝叶斯神经网络预测置信度等四个方面的讨论，并对这些研究的意义和影响进行了总结。我提出的问题帮助理清了各个研究的重点和难点，并促进了对这些研究结果的更深入理解。

Deep Dive

Chapters

本期节目首先介绍了FilmAgent框架，它利用多Agent协作和大型语言模型，实现了虚拟3D空间中的电影自动化制作。该框架将电影制作分解成创意开发、剧本写作和摄影三个阶段，每个阶段由不同的Agent负责。实验结果表明，即使使用性能较弱的模型，FilmAgent也能超越单Agent系统，体现了多Agent协作的优势。FilmAgent与Sora相比，在故事连贯性和叙事方面表现更好，但Sora在画面生成方面更灵活。

FilmAgent是一个多Agent框架，用于虚拟3D空间中的端到端电影自动化制作
FilmAgent将电影制作分解成三个阶段：创意开发、剧本写作和摄影
即使使用较弱的模型，FilmAgent的效果也超过了使用更强模型的单Agent系统
FilmAgent在故事连贯性和叙事方面优于Sora，但Sora在画面生成方面更灵活

Shownotes Transcript

听众朋友们大家好欢迎收听最新一期的太快报我是主持人小爱大家好我是小 T 很高兴又和大家在太快报相遇了今天的几篇论文都很有意思既有非常酷炫的应用比如 AI 拍电影也有对我们固有认知的一些挑战和反思比如神经网络的靠谱程度听起来就很有意思那我们先来说说 AI 拍电影吧

这个 Film Agent 听名字就感觉很厉害是 AI 要抢导演的饭碗了吗可以这么说但也不完全是这个 Film Agent 实际上是一个多 Agent 框架它的目标是实现虚拟 3D 空间里端到端的电影制作自动化你可以

可以把它想象成一个虚拟的电影设置组里面有导演 agent 编剧 agent 演员 agent 摄影师 agent 等等哇听起来像玩角色扮演游戏一样那他们是怎么分工合作的呢没错分工合作是关键电影制作被分解成三个阶段首先是创意开发就像我们平时说的故事梗概 AI 编剧 agent 负责构思故事大纲

然后是剧本写作 AI 编剧 Agent 会进一步完善剧本包括对话和角色动作最后是摄影由摄影师 Agent 负责确定拍摄角度镜头运动等等那演员呢演员 Agent 怎么演戏

这里的演员 agent 其实更像是控制虚拟角色的 AI 论文里构建了一个 3D 虚拟环境里面有虚拟演员场景道具等等演员 agent 会根据剧本的指示控制虚拟演员进行表演感觉像是在玩高级版的模拟人生游戏那

他们拍出来的电影效果怎么样呢?研究人员对 Filmigent 生成的 15 个视频进行了人工评估,结果还真不错,平均得分 3.98 分,满分 15 分。更厉害的是他们发现即使 Filmigent 用的是相对弱一点的 GPT-4O 模型,效果也超过了用更强大的 OE 模型的 Damage Agent 系统。用弱模型反而超过了强模型,这有点反直觉。

是这就是这篇论文一个很重要的发现它说明对于复杂的任务合理的任务分解和有效的协作机制比单纯依赖更强大的模型更重要就像拍电影不是说导演一个人能力超强就能搞定一切还需要编剧演员摄影师等等的默契配合我明白了这就像一个团队的力量大于个人英雄主义那 Film Agent OpenAI 的 Sora 相比呢

Sora 最近也很火,也能生成视频,论文里也对比了 Film Agent 和 SoraFilm Agent 在故事连贯性、叙事和物理规律方面表现更好也就是它拍的电影更像一个完整的故事,更符合我们对现实世界的认知而 Sora 的优势在于更灵活,更能生成一些天马行空的画面但在故事性和连贯性方面,还有提升空间各有千秋,感觉 AI 拍电影未来可期

那除了电影梦工厂我们再来看看其他有趣的 AI 研究吧接下来是关于近似最近零搜索的这个听起来有点专业能用大白话解释一下吗当然你可以把近似最近零搜索 ANNS 想象成我们在网上购物时电商网站的猜你喜欢功能

当我们浏览一个商品时网站会快速找出和这个商品最相似的其他商品推荐给我们 ANNS 技术就是用来高效地进行这种相似性搜索的我明白了那这篇论文是研究怎么让猜你喜欢更快的吗

可以这么理解,但更准确地说,这篇文章关注的是如何更节省存储空间。ANNS 技术需要构建一个索引,这个索引通常很大要放在内存里才能快速搜索,而索引里除了向量数据本身还有一些 ID 信息和链接信息,

这些辅助数据也会占用大量的存储空间甚至超过向量本身那这篇文章是怎么节省空间的呢研究人员发现对于 ANNS 所引中的向量 ID 其实有很多压缩空间可以挖掘他们提出了一系列无损压缩方法

就像我们平时压缩文件一样,可以把 ID 数据压缩得更小,从而减少索引的整体大小。无损压缩,听起来很神奇,不会影响搜索的准确性吗?这就是无损压缩的厉害之处,它在压缩数据的同时保证数据信息不丢失,解压后还能完全恢复。实验结果表明,使用他们提出的方法,可以将向量 ID 压缩高达 7 倍,而且对搜索速度几乎没有影响。7 倍,那可以节省很多服务器成本。

感觉这个技术很实用是的尤其是在大数据时代数据量越来越大如何高效的存储和检索数据至关重要这项研究为 ANS 技术在海量数据场景下的应用提供了更好的解决方案嗯

节省空间就是节省成本很实在的研究接下来我们聊聊从点轨迹学习分割这个点轨迹是指什么你可以想象一下我们在看视频的时候画面中的物体都在运动所谓点轨迹就是指视频中一些关键点在连续帧之间的运动轨迹比如一个视频里有一辆行驶的汽车汽车上的一些特征点比如车灯的脚点在视频帧序列中会形成一条运动轨迹

明白了,是像动画片里人物运动的轨迹线一样那从点轨迹学习分割是什么意思呢?视频对象分割就是指把视频中不同的物体分割出来比如把汽车行人、背景等等去分开这篇文章提出了一种新的无监督视频对象分割方法就是利用视频中物体的点轨迹信息来进行分割无监督是不需要人工标注数据吗?

是的无监督学习是 AI 领域一个很重要的研究方向传统的视频对象分割方法通常需要大量的人工标注数据来训练模型而这篇文章提出的方法只需要利用视频本身的点轨迹信息就可以让 AI 自动学习如何分割物体听起来很厉害那

它是怎么做到的呢?核心思想是利用共同命运原则你可以理解为同一个物体上的点它们的运动方式通常是相似的会同生共死这篇文章没有直接去建模复杂的物体运动而是涉及了一个损失函数

鼓励将运动轨迹相似的点分组到一起共同命运原则这个概念挺形象的那效果怎么样呢实验结果表明这种方法在无监督视频对象分割任务上取得了目前最好的效果比之前的方法都更准确而且它还避免了传统方法中一些计算量很大的步骤提高了效率感觉 AI 越来越聪明了不需要人教自己就能学会分割视频里的物体了

是的无监督学习是 AI 发展的一个重要方向它能让 AI 更好地利用海量无标签数据降低对人工标注数据的依赖嗯

感觉今天的讨论信息量好大接下来这个贝耶斯神经网络能否做出自信的预测这个标题就很有哲学意味神经网络也会自信吗这是一个好问题贝耶斯神经网络 BNN 是一种特殊的神经网络它不仅能给出预测结果还能给出预测结果的

那这篇文章是说贝斯神经网络的自信其实不靠谱

这项研究正是对贝叶斯神经网络的致敬度提出了质疑研究人员发现在某些情况下即使是训练得很好的贝叶斯神经网络它的预测不确定性估计也可能不准确甚至会过度自信过度自信那不是跟盲目自信一样了吗某种程度上是这样的研究发现贝叶斯神经网络的后验预测分布可能是多模态的

你可以理解为模型对于同一个问题可能有多种可能性的答案但它给出的自信度却只反映了其中一种可能性而忽略了其他可能性就像只见树木不见森林有点那个意思

更令人惊讶的是,研究人员还发现在某些情况下,即使增加网络规模和训练数据,贝叶斯神经网络的预测不确定性也不会像我们期望的那样收缩,也就是说它并没有因为见多识广就变得更谦虚和靠谱。那这不就颠覆了我们对贝叶斯神经网络的认知了吗?

是的,这项研究对贝叶斯神经网络的理论基础提出了挑战也提醒我们在实际应用中要更谨慎地对待贝叶斯神经网络给出的知性度估计感觉神经网络也不是万能的,也会有不靠谱的时候没错,AI 研究就是一个不断探索,不断反思的过程最后我们再来看一篇论文是关于神经切线和方法的问题的

神经切线和 NTK 是近年来兴起的一种神经网络理论分析工具它试图用一种更简洁的数学模型合回归来近似神经网络的训练过程你可以把 NTK 看作是理解神经网络黑箱的一种尝试用合回归来近似神经网络听起来有点抽象

简单来说 NTK 理论认为在特定条件下训练后的神经网络可以等价于一个用神经切线核进行核回归的模型这个等价定理是 NTK 理论的核心那这篇文章是说这个等价定理有问题吗

是的,研究人員通過實驗驗證發現這個等價定理在實踐中可能並不成立他們發現當向神經網絡增加層數時神經網絡的性能會提升但對應的 NTK 模型的性能卻沒有出現相應的提升

甚至有时还会下降理论和实际不符是的更让人意外的是他们还发现用一种与神经网络无关的钢丝过程核进行核回归其预测性能竟然和用 NTK 进行核回归差不多这意味着 NTK 可能并没有真正捕捉到神经网络训练的精髓那

NTT 理论是不是就凉了?倒也不至于完全凉凉。这项研究主要是指出了 NTT 理论的一些局限性,提醒我们不能过度迷信理论,要用实验来检验理论的有效性,同时也促使我们更深入地思考如何构建更有效的神经网络理论分析工具。感觉 AI 研究真的是步步惊心,每一步尽量都充满了挑战和反思。

说得太好了

听完今天的太快报感觉又学到了好多新知识也对 AI 的未来发展有了更深入的思考感谢小 T 的精彩解读也感谢小爱的提问和总结希望今天的节目能让大家对 AI 的最新进展有所了解也引发一些思考听众朋友们本期太快报就到这里了感谢您的收听我们下期再见下期见拜拜

AI前沿：AI电影梦工厂、ANN的ID压缩与视频分割学习 11:20 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：AI电影梦工厂、ANN的ID压缩与视频分割学习