听众朋友们大家好欢迎收听最新一期的太快报我是主持人小爱大家好我是小 T 很高兴又和大家在太快报相遇了今天的几篇论文都很有意思既有非常酷炫的应用比如 AI 拍电影也有对我们固有认知的一些挑战和反思比如神经网络的靠谱程度听起来就很有意思那我们先来说说 AI 拍电影吧
这个 Film Agent 听名字就感觉很厉害是 AI 要抢导演的饭碗了吗可以这么说但也不完全是这个 Film Agent 实际上是一个多 Agent 框架它的目标是实现虚拟 3D 空间里端到端的电影制作自动化你可以
可以把它想象成一个虚拟的电影设置组里面有导演 agent 编剧 agent 演员 agent 摄影师 agent 等等哇 听起来像玩角色扮演游戏一样那他们是怎么分工合作的呢没错 分工合作是关键电影制作被分解成三个阶段首先是创意开发就像我们平时说的故事梗概 AI 编剧 agent 负责构思故事大纲
然后是剧本写作 AI 编剧 Agent 会进一步完善剧本包括对话和角色动作最后是摄影由摄影师 Agent 负责确定拍摄角度镜头运动等等那演员呢演员 Agent 怎么演戏
这里的演员 agent 其实更像是控制虚拟角色的 AI 论文里构建了一个 3D 虚拟环境里面有虚拟演员场景道具等等演员 agent 会根据剧本的指示控制虚拟演员进行表演感觉像是在玩高级版的模拟人生游戏那
他们拍出来的电影效果怎么样呢?研究人员对 Filmigent 生成的 15 个视频进行了人工评估,结果还真不错,平均得分 3.98 分,满分 15 分。更厉害的是他们发现即使 Filmigent 用的是相对弱一点的 GPT-4O 模型,效果也超过了用更强大的 OE 模型的 Damage Agent 系统。用弱模型反而超过了强模型,这有点反直觉。
是 这就是这篇论文一个很重要的发现它说明对于复杂的任务合理的任务分解和有效的协作机制比单纯依赖更强大的模型更重要就像拍电影不是说导演一个人能力超强就能搞定一切还需要编剧 演员 摄影师等等的默契配合我明白了这就像一个团队的力量大于个人英雄主义那 Film Agent OpenAI 的 Sora 相比呢
Sora 最近也很火,也能生成视频,论文里也对比了 Film Agent 和 SoraFilm Agent 在故事连贯性、叙事和物理规律方面表现更好也就是它拍的电影更像一个完整的故事,更符合我们对现实世界的认知而 Sora 的优势在于更灵活,更能生成一些天马行空的画面但在故事性和连贯性方面,还有提升空间各有千秋,感觉 AI 拍电影未来可期
那除了电影梦工厂我们再来看看其他有趣的 AI 研究吧接下来是关于近似最近零搜索的这个听起来有点专业能用大白话解释一下吗当然你可以把近似最近零搜索 ANNS 想象成我们在网上购物时电商网站的猜你喜欢功能
当我们浏览一个商品时网站会快速找出和这个商品最相似的其他商品推荐给我们 ANNS 技术就是用来高效地进行这种相似性搜索的我明白了那这篇论文是研究怎么让猜你喜欢更快的吗
可以这么理解,但更准确地说,这篇文章关注的是如何更节省存储空间。ANNS 技术需要构建一个索引,这个索引通常很大要放在内存里才能快速搜索,而索引里除了向量数据本身还有一些 ID 信息和链接信息,
这些辅助数据也会占用大量的存储空间甚至超过向量本身那这篇文章是怎么节省空间的呢研究人员发现对于 ANNS 所引中的向量 ID 其实有很多压缩空间可以挖掘他们提出了一系列无损压缩方法
就像我们平时压缩文件一样,可以把 ID 数据压缩得更小,从而减少索引的整体大小。无损压缩,听起来很神奇,不会影响搜索的准确性吗?这就是无损压缩的厉害之处,它在压缩数据的同时保证数据信息不丢失,解压后还能完全恢复。实验结果表明,使用他们提出的方法,可以将向量 ID 压缩高达 7 倍,而且对搜索速度几乎没有影响。7 倍,那可以节省很多服务器成本。
感觉这个技术很实用是的尤其是在大数据时代数据量越来越大如何高效的存储和检索数据至关重要这项研究为 ANS 技术在海量数据场景下的应用提供了更好的解决方案嗯
节省空间就是节省成本很实在的研究接下来我们聊聊从点轨迹学习分割这个点轨迹是指什么你可以想象一下我们在看视频的时候画面中的物体都在运动所谓点轨迹就是指视频中一些关键点在连续帧之间的运动轨迹比如一个视频里有一辆行驶的汽车汽车上的一些特征点比如车灯的脚点在视频帧序列中会形成一条运动轨迹
明白了,是像动画片里人物运动的轨迹线一样那从点轨迹学习分割是什么意思呢?视频对象分割就是指把视频中不同的物体分割出来比如把汽车行人、背景等等去分开这篇文章提出了一种新的无监督视频对象分割方法就是利用视频中物体的点轨迹信息来进行分割无监督是不需要人工标注数据吗?
是的无监督学习是 AI 领域一个很重要的研究方向传统的视频对象分割方法通常需要大量的人工标注数据来训练模型而这篇文章提出的方法只需要利用视频本身的点轨迹信息就可以让 AI 自动学习如何分割物体听起来很厉害那
它是怎么做到的呢?核心思想是利用共同命运原则你可以理解为同一个物体上的点它们的运动方式通常是相似的会同生共死这篇文章没有直接去建模复杂的物体运动而是涉及了一个损失函数
鼓励将运动轨迹相似的点分组到一起共同命运原则这个概念挺形象的那效果怎么样呢实验结果表明这种方法在无监督视频对象分割任务上取得了目前最好的效果比之前的方法都更准确而且它还避免了传统方法中一些计算量很大的步骤提高了效率感觉 AI 越来越聪明了不需要人教自己就能学会分割视频里的物体了
是的无监督学习是 AI 发展的一个重要方向它能让 AI 更好地利用海量无标签数据降低对人工标注数据的依赖嗯
感觉今天的讨论信息量好大接下来这个贝耶斯神经网络能否做出自信的预测这个标题就很有哲学意味神经网络也会自信吗这是一个好问题贝耶斯神经网络 BNN 是一种特殊的神经网络它不仅能给出预测结果还能给出预测结果的
那这篇文章是说贝斯神经网络的自信其实不靠谱
这项研究正是对贝叶斯神经网络的致敬度提出了质疑研究人员发现在某些情况下即使是训练得很好的贝叶斯神经网络它的预测不确定性估计也可能不准确甚至会过度自信过度自信那不是跟盲目自信一样了吗某种程度上是这样的研究发现贝叶斯神经网络的后验预测分布可能是多模态的
你可以理解为模型对于同一个问题可能有多种可能性的答案但它给出的自信度却只反映了其中一种可能性而忽略了其他可能性就像只见树木不见森林有点那个意思
更令人惊讶的是,研究人员还发现在某些情况下,即使增加网络规模和训练数据,贝叶斯神经网络的预测不确定性也不会像我们期望的那样收缩,也就是说它并没有因为见多识广就变得更谦虚和靠谱。那这不就颠覆了我们对贝叶斯神经网络的认知了吗?
是的,这项研究对贝叶斯神经网络的理论基础提出了挑战也提醒我们在实际应用中要更谨慎地对待贝叶斯神经网络给出的知性度估计感觉神经网络也不是万能的,也会有不靠谱的时候没错,AI 研究就是一个不断探索,不断反思的过程最后我们再来看一篇论文是关于神经切线和方法的问题的
神经切线和 NTK 是近年来兴起的一种神经网络理论分析工具它试图用一种更简洁的数学模型合回归来近似神经网络的训练过程你可以把 NTK 看作是理解神经网络黑箱的一种尝试用合回归来近似神经网络听起来有点抽象
简单来说 NTK 理论认为在特定条件下训练后的神经网络可以等价于一个用神经切线核进行核回归的模型这个等价定理是 NTK 理论的核心那这篇文章是说这个等价定理有问题吗
是的,研究人員通過實驗驗證發現這個等價定理在實踐中可能並不成立他們發現當向神經網絡增加層數時神經網絡的性能會提升但對應的 NTK 模型的性能卻沒有出現相應的提升
甚至有时还会下降理论和实际不符是的更让人意外的是他们还发现用一种与神经网络无关的钢丝过程核进行核回归其预测性能竟然和用 NTK 进行核回归差不多这意味着 NTK 可能并没有真正捕捉到神经网络训练的精髓那
NTT 理论是不是就凉了?倒也不至于完全凉凉。这项研究主要是指出了 NTT 理论的一些局限性,提醒我们不能过度迷信理论,要用实验来检验理论的有效性,同时也促使我们更深入地思考如何构建更有效的神经网络理论分析工具。感觉 AI 研究真的是步步惊心,每一步尽量都充满了挑战和反思。
说得太好了
听完今天的太快报感觉又学到了好多新知识也对 AI 的未来发展有了更深入的思考感谢小 T 的精彩解读也感谢小爱的提问和总结希望今天的节目能让大家对 AI 的最新进展有所了解也引发一些思考听众朋友们本期太快报就到这里了感谢您的收听我们下期再见下期见拜拜