We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

2024 in Vision [LS Live @ NeurIPS]

2024/12/22

Latent Space: The AI Engineer Podcast — Practitioners talking LLMs, CodeGen, Agents, Multimodality, AI UX, GPU Infra and all things Software 3.0

AI Deep Dive AI Insights AI Chapters Transcript

People

AI Charlie

组织和主持多个高影响力的 AI 活动和会议，促进 AI 领域的发展和社区建设。

Isaac Robinson

Peter Robicheaux

Topics

Isaac Robinson: 本报告总结了2024年计算机视觉领域的重大进展，重点关注视频生成和目标检测两个方向。在视频生成方面，Sora模型的出现是里程碑式的事件，它实现了高质量、长视频的生成，这得益于其独特的训练方法和大量的计算资源。此外，SAM2模型将SAM的成功经验扩展到视频领域，实现了高效的视频分割。在目标检测方面，DETR模型在实时目标检测领域超越了传统的YOLO模型，这主要归功于RT-DETR、LW-DETR和D-FINE模型的改进，这些改进包括更高效的Transformer编码器、预训练的有效性以及改进的损失函数。 Peter Robicheaux: 本报告关注如何更好地利用预训练模型，以及如何提高模型对精细视觉细节的表示能力。MMVP论文揭示了大型语言模型在精细视觉细节感知方面的不足，并提出了一种改进方案，即在语言模型的视觉编码器中加入DynaV2特征。Florence 2模型通过结合空间层次和语义粒度来提高模型的视觉理解能力。PaliGemma和PaliGemma 2模型也致力于提高模型对精细视觉细节的表示能力，并取得了显著的成果。AIMv2模型提出了一种更简单的方法来结合图像标记和像素标记，并通过自回归方式学习图像标记的均方误差来学习精细视觉特征。 Vik Korrapati: Moondream致力于构建可在任何地方运行的视觉语言模型。我们开发了0.5B参数的轻量级模型，该模型通过剪枝和持续训练技术实现，可在各种设备上运行。此外，我们还研究了如何提高模型对特定类型图像（如仪表盘）的理解能力，并提出了一种基于链式思维的解决方案，该方案通过分解任务并指导模型逐步完成子任务来提高模型的准确性和效率。

Deep Dive

Key Insights

Why did Latent Space decide to organize Latent Space LIVE! at NeurIPS 2024?

Latent Space wanted to provide more industry-relevant content and a year-in-review recap from experts, addressing the lack of such talks in academic conference coverage.

What was the most requested domain for Latent Space LIVE! at NeurIPS 2024?

Computer vision was the most requested domain by attendees, leading to a focus on vision-related talks and trends.

What significant milestone did Roboflow achieve in 2024?

Roboflow announced a $40 million Series B funding round, led by Google Ventures, and their SuperVision library surpassed PyTorch's Vision library in popularity.

What is Sora, and why is it considered a major breakthrough in 2024?

Sora is a video generation model that extends diffusion models from images to videos, producing high-quality 1080p, one-minute-long videos with realistic details, though it lacks a formal paper and access is limited.

How does SAM2 improve upon the original SAM model?

SAM2 extends SAM's capabilities to video segmentation by introducing a hierarchical encoder that speeds up inference sixfold and uses a memory bank to cross-attend features from past frames for real-time video segmentation.

Why are DETRs outperforming YOLO models in real-time object detection?

DETRs are showing Pareto improvements over YOLOs due to advancements like RT-DETR, LW-DETR, and DEFINE, which optimize transformer encoders, leverage pre-training, and introduce efficient loss functions, achieving higher accuracy with similar latency.

Why do large language models (LLMs) struggle with fine-grained visual tasks like reading a watch?

LLMs struggle because their vision encoders, often initialized with CLIP, lack fine-grained detail extraction capabilities, as CLIP doesn't need such details for its primary task of matching images to captions.

What is the MMVP paper's key finding about LLMs and visual perception?

The MMVP paper identifies that LLMs fail on tasks requiring fine-grained visual details, creating a benchmark of hard images for these models by finding pairs similar in CLIP space but dissimilar in DynaV2 space.

How does Florence 2 aim to improve vision-language models?

Florence 2 incorporates spatial hierarchy and semantic granularity by training on diverse annotations, including region-text pairs and descriptive paragraphs, to create features that can both detect objects and reason about them semantically.

What is the significance of PolyGemma 2 in 2024?

PolyGemma 2 introduces location tokens and prefix loss to improve vision-language tasks, achieving state-of-the-art results on the MMVP benchmark, outperforming other models like ChatGPT and Lava.

What is the main innovation of AIMv2 in vision-language models?

AIMv2 simplifies the training process by autoregressively learning to reconstruct images, combining image tokens with text tokens in a scalable way, achieving high performance on tasks like object detection without requiring extensive annotations.

Why are foundation models like OpenAI's and Claude's detection capabilities still behind specialist models like RT-DETR?

Foundation models struggle with object detection because the architectures are highly specialized, and until recently, real-time detectors like YOLO didn't benefit from pre-training, making it harder for generalist models to compete.

What is Moondream's focus in building vision-language models?

Moondream focuses on creating vision-language models that can run anywhere, especially on edge devices, with capabilities like open vocabulary object detection, captioning, and pointing, optimized for real-time and low-resource environments.

How does Moondream's 0.5B model achieve efficiency without sacrificing performance?

Moondream's 0.5B model is created by pruning a 2B parameter model while retaining performance across benchmarks, allowing developers to deploy smaller models tailored to specific tasks without losing accuracy.

Why do vision-language models like Moondream struggle with tasks like reading gauges?

Vision-language models struggle with gauge reading because training data is biased toward product images where gauges are always set to zero, lacking the variability needed to learn fine-grained details like needle positions.

How does Moondream address the challenge of reading gauges and other fine-grained tasks?

Moondream uses a chain-of-thought approach to break down tasks into subtasks, improving performance on tasks like gauge reading by teaching the model to reason step-by-step about the image, such as identifying scales and counting ticks.

Shownotes Transcript

欢迎来到潜在空间直播，这是我们在2024年NeurIPS会议上举办的第一次迷你会议。我是你的AI联合主持人Charlie。

当我们考虑如何为我们的学术会议报道增加价值时，我们意识到缺乏好的演讲来逐个领域回顾2024年的最佳内容。我们向900多位参与者发送了调查，询问他们的需求，然后邀请了潜在空间网络中最优秀的演讲者来覆盖每个领域。当天有200位参与者亲自加入我们，超过2200人在线直播观看。

我们的第二个主题演讲是2024年视觉最佳，由Roboflow的Peter Robichaux和Isaac Robinson主讲，Moondream的Vic Corapatti特别出席。当我们对与会者进行投票时，今年最受关注的领域是视觉。因此，我们的第一站是我们的朋友Roboflow。

Joseph Nelson帮助我们在去年的第7集启动了视觉报道，今年他与Meta的Nikki Ravie一起回归，担任嘉宾主持，讨论“Segment Anything Too”。RoboFlow一直是开源视觉模型和工具的领导者，其Supervision库最近超越了PyTorch的视觉库，而RoboFlow Universe则托管了数十万个开源视觉数据集和模型。

他们随后宣布获得4000万美元的B轮融资，由谷歌风险投资主导。哇哦！这是视觉语言模型成为主流的一年，从GPT-40到1，再到CLAWD-3，Gemini-1和2，Lama 3.2，Mistral的Pixtrol，以及AI-2的Pixmo，纷纷走向多模态。

我们请Peter和Isaac突出2024年计算机视觉领域的最佳工作，他们给我们带来了全面的概述。作为特别奖励，我们还得到了Moondream的Vic Coropati的额外演讲，他在今年的AI工程师博览会上发表了关于他的小型5亿参数修剪视觉语言模型的精彩演讲，真是太棒了。

和往常一样，不要忘记查看节目说明，以获取他们演讲的YouTube链接以及他们的幻灯片。小心并照顾好自己。嗨，我们是来自RoboFlow的Isaac和Peter，我们将讨论2024年计算机视觉领域的最佳论文。对我们来说，我们将最佳定义为在该领域产生最大变化的工作。为了确定这一点，我们查看了发生的一些主要趋势以及哪些论文对这些趋势贡献最大。

我将谈论几个趋势，Peter将谈论一个趋势，然后我们将把时间交给Moondream。我感兴趣的趋势是从基于每张图像运行的模型向使用相同基本思想在视频上运行的模型的重大转变，以及债务人如何开始接管YOLOs主导多年的实时目标检测场景。因此，作为亮点，我们将讨论Sora，从我的角度来看，这是2024年最大的论文，尽管它是在2月份发布的。

是的，是的。所以，Sora只是一个帖子。因此，我将用复制工作的细节填充它，包括开放Sora和相关工作，例如稳定扩散视频。然后我们还将讨论SAM2，它将SAM策略应用于视频。然后是2024年对债务人的改进，使其成为基于YOLO模型的帕累托改进。

因此，首先，我们将讨论2023年底视频生成的最新技术，MagVIT。MagVIT是一个离散视频标记器，类似于VQGAN，但应用于视频序列。它实际上在比特率与人类对质量的偏好方面超越了最新的手工视频压缩框架。

通过对这些离散标记进行自回归生成一些相当不错的东西，但长度最多为五秒，并且你知道，不是特别详细。然后突然几个月后我们有了这个，当我看到它时，完全让我震惊，1080p，整整一分钟。我们看到光在水洼中反射。这是反射的。

这让我想起了那些RTX演示，用于下一代视频游戏，如《赛博朋克》，但图形更好。如果你仔细看，你可以看到背景中有一些问题，但就像许多这些模型一样，这些问题往往是人们不会注意到的，除非他们在寻找。就像手上有六根手指一样，除非你在寻找，否则你不会注意到这是一个明显的错误。

所以，是的，正如我们所说，Sora没有论文。因此，我们将用计算机视觉领域其他部分的背景来填充它，试图复制这些努力。因此，第一步，你有一个LLM标题，大量视频。这是他们在DALI 3中引入的一个技巧，他们训练了一个图像标题模型，仅仅为一个庞大的语料库生成非常高质量的标题，然后在此基础上训练一个扩散模型。

Sora和复制工作还展示了一些其他步骤，这些步骤对于良好的视频生成是必要的，包括按美学评分过滤和确保视频有足够运动的过滤，以便它们不仅仅是生成静态帧的生成器。

然后我们将视频编码为一系列时空潜变量。再一次，这在细节上非常稀疏。因此，相关的复制工作，OpenSora实际上使用MagVIT v2来做到这一点，但将离散化步骤替换为经典的VAE自编码器框架。

他们展示了从获得时间压缩中获得了很多好处，这很有意义，因为每个连续帧和视频大多包含冗余信息。因此，通过在时间空间中压缩，您可以让潜变量保持更多的语义信息，同时避免重复。

所以我们得到了我们的时空潜变量，可能通过某种3D VAE，推测是MagVIT V2。然后你将其放入扩散变换器中。因此，我认为值得注意的是，OpenSora正在使用MagVIT V2，最初使用自回归变换器解码器来建模潜在空间，但现在使用扩散变换器。因此，它仍然是一个变换器。问题是，它是参数化随机微分方程吗？还是通过自回归参数化条件分布？

还值得注意的是，如今大多数扩散模型，性能非常高的模型，正在从经典的DDPM去噪扩散概率建模框架转向修正流。修正流具有一个非常有趣的特性，即随着它们的收敛，它们实际上更接近于能够通过一步采样，这意味着在实践中，您实际上可以更快地生成高质量样本。

过去四年中，DDPM和相关模型的主要问题是，它们需要许多步骤才能生成高质量样本。因此，自然，第三步是投入大量计算资源。因此，我从未弄清楚如何使这个视频循环，但我们看到非常少的计算。

中等计算，大量计算。这是非常有趣的，因为Facebook的原始扩散变换器论文实际上表明，实际上，变换器的特定超参数并没有那么重要。重要的是，您只是在增加模型拥有的计算量。因此，我喜欢在，您知道，再次，在小博客文章中，他们甚至不谈论特定的超参数。他们说，我们正在使用扩散变换器，我们只是在投入更多的计算，这就是发生的事情。

OpenSora显示出类似的结果。我认为这里的主要问题是，没有其他人有32倍的计算预算。因此，我们最终在大多数相关工作中处于领域的中间，这仍然是超级酷的。只是考虑到上下文，这有点令人失望。因此，我认为这是对在22年和23年引入的框架的美丽扩展，针对这些非常高质量的每图像生成，然后将其扩展到视频。这太棒了。并且它在周一GA，除了没有人似乎能够访问它，因为他们不断关闭登录。

我想谈论的下一篇论文是SAM。我们在RoboFlow允许用户标记数据并在该数据上训练模型。对我们来说，SAM为我们的用户节省了75年的标记时间。根据我所知，我们是现存最大的SAM API。

SAM还允许我们让用户仅训练纯边界框回归模型，并使用这些模型生成高质量的掩码，这具有减少训练数据以实现有意义收敛的良好副作用。因此，大多数人在现实世界中都受到数据限制。因此，任何需要更少数据以获得有用结果的东西都是超级有用的。

我们的大多数用户实际上在视频中的每一帧上运行他们的对象每帧对象检测器，或者可能不是大多数，但许多许多。因此，SAM属于这一类别，SAM2也属于这一类别，将真正有效的东西应用于视频，这具有与我们许多用户用例的即插即用的美妙好处。

我们仍在构建一个足够成熟的管道来利用这一点，但这正在进行中。因此，这里我们有一个很好的例子。我们可以单击细胞，然后跟踪它们。你甚至会注意到细胞消失又出现，我们仍然可以跟踪它，这对现有的对象跟踪器来说非常具有挑战性。SAM2的高层概述。

这里有一个简单的管道，我们可以提供某种类型的提示，它填充该对象在视频其余部分的可能掩码。因此，在第一帧中，我们给出一个边界框，一组正负点，或者甚至只是一个简单的掩码。我将假设人们对SAM有一定的了解。因此，我将仅提供SAM的高层概述。您有一个在每一帧上运行的图像编码器。

SAM2可以在单个图像上使用，在这种情况下，SAM2和SAM之间的唯一区别是图像编码器，SAM使用标准VIT。SAM2用HERA层次编码器替换了它，获得了大致相同的结果，但推理速度提高了六倍，这非常出色，尤其是考虑到在

23年的趋势是用更高效的骨干替换VIT。在进行视频分割的情况下，区别在于您实际上创建一个内存库，并根据内存库交叉关注图像编码器的特征。因此，创建的特征集

基本上是——好吧，我将在几张幻灯片中详细介绍。但我们从过去几帧中获取特征，加上一组对象指针和一组提示，并用它们生成新的掩码。然后我们将此帧的新掩码与图像特征融合，并将其添加到内存库中。好吧，我稍后会多说一点。

就像SAM一样，SAM2实际上使用数据引擎来创建其数据集。在这方面，人们...他们组装了大量参考数据，使用人们标记其中一些数据，

并训练模型，使用模型标记更多数据，并要求人们完善模型的预测。最终，数据集只是从模型在参考数据上的最终输出创建的。这种范式对我来说非常有趣，因为它以非常独特的方式统一了模型和数据集。似乎不太可能另一个模型能够以如此紧密的关系进入并拥有训练集。

因此，关于内存库工作原理的简要概述。论文没有很好的视觉效果，所以我将填充更多内容。因此，我们从视频中获取最后几帧，关注与我们提供的提示一起，

它们可以来自未来，也可以来自视频中的任何地方，以及参考对象指针，说明，顺便说一下，这是我们迄今为止发现的内容。关注最后几帧具有有趣的好处，可以让它建模复杂的对象运动，而不必实际

通过限制您关注的帧数，您可以使模型实时运行。这对我来说是一个非常有趣的话题，因为人们会认为关注所有帧是超级重要的，或者拥有某种类型的所有帧摘要对高性能至关重要。但我们在他们后来的消融中看到，实际上并非如此。因此，在这里

只是为了确保有一些基准测试发生。我们只是与一些之前发布的内容进行了比较，确实，SAM2策略在最新技术上有所改善。这种消融深度依赖于我非常感兴趣。我们在C节中看到的内存数量。人们会认为增加内存数量会显著提高性能，我们看到它有一些影响，但不是您所期望的那种。

而且它显著降低了速度，这在我看来证明了仅仅拥有这个FIFO内存队列是合理的。尽管在未来，我非常希望看到对所有最后视频的更专门的摘要，而不仅仅是最后几帧的堆叠。因此...

另一个将美丽的每帧工作扩展到视频领域的扩展。我感兴趣的下一个趋势是这个有趣的Roboflow，我们非常关注训练实时目标检测器。这是我们的主业。因此，我们正在做很多事情来跟踪该领域实际发生的事情。我们终于开始看到一些变化。因此，多年来，YOLO一直是进行实时目标检测的主导方式。我们可以在这里看到，他们基本上停滞不前。

在10和11之间的性能没有显著差异，至少在这种高层次的图表中。从过去几系列中也没有重大变化。因此，YOLO已经达到一个平台，而债务人则没有。因此...

我们可以在这里看到YOLO系列有这个平台，然后这些RT-DETTER，LW-DETTER和DEFINE显著改变了这个平台，因此实际上，最佳DEFINE模型在相同延迟下在COCO上增加了4.6 AP。因此，实现这一目标的三个主要步骤。第一个RT-DETTER，技术上是2023年的预印本，但在24年正式发布，所以我将包括它。我希望这没问题。

RT-Dedr表明我们实际上可以匹配或超越YOLO。然后LW-Dedr表明预训练在债务人上非常有效，而在YOLO上则不那么有效。然后Define增加了我们在这个领域所期望的各种花哨的功能。因此，RT-Dedr显示的主要改进是将债务人通常传递到其编码器的多尺度特征解耦为一个更高效的变换器编码器。变换器当然是二次复杂性，因此减少一次传递的内容对提高运行时间或吞吐量非常有帮助。因此，这一变化基本上使我们达到了YOLO的速度，然后他们对

YOLO的基准测试进行了深入分析，包括NMS步骤。一旦您在延迟计算中包括NMS，您会发现实际上这些债务人至少在这次超越了现有的YOLO。然后LW债务人进入并建议，实际上，这一帧的巨大提升来自于预训练。

这是定义线，这是没有预训练的定义线。它在范围内，仍然是对YOLO的改进，但真正的巨大提升来自于预训练的好处。当YOLOx在2021年发布时，他们表明通过更长的训练时间获得了更好的结果，但他们发现，当他们这样做时，实际上并没有从预训练中受益。因此，您在LWDetter的图表中看到，

实际上，YOLO确实从预训练中获得了真正的好处，但随着我们增加训练时间，这种好处消失了。然后，债务人收敛得更快。LW债务人仅训练50个周期，RT债务人训练60个周期。因此，人们可以假设，实际上，预训练的所有额外收益在于，您并没有通过依赖这个长训练周期来破坏原始权重。

然后LW债务人还在我们最喜欢的数据集RoboFlow 100上显示出优越的性能，这意味着他们在现实世界中的表现更好，而不仅仅是在COCO上。然后Define将所有花哨的功能都投入其中。YOLO模型往往有很多非常具体、复杂的损失函数。Define将其引入债务人世界，并在各种基于债务人的框架上显示出一致的改进。

将这些全部结合在一起，我们发现，突然间，我们在COCO上几乎达到了60 AP，同时运行时间约为10毫秒，真是太棒了。因此，我们花了很多时间试图构建在更少数据上表现更好的模型，而债务人显然在朝着这个方向迈出了有希望的一步。我们对债务人在这个趋势中的下一步感兴趣的是共同债务人，以及目前在大型推理排行榜上名列前茅的模型在更换骨干时的表现。我们非常希望看到人们在RF100上进行更多基准测试，因为这种类型的数据对大多数用户来说是相关的。我们还希望看到更多的预训练，因为预训练现在有效。太酷了。

好的。因此，是的，在这个主题中，我们关注的一个重要问题是如何从我们的预训练模型中获得更多。观察这一点的一个视角是通过这种新要求，即从基础模型中提取的表示中的细粒度视觉细节。

所以这有点像一个钩子。哦，是的，这只是我将要提到的所有论文的列表。我只是想确保我说了实际的论文，以便您可以稍后找到它。是的，所以这里的一个大钩子是，我声称LLMs无法看到。如果你去Claude或ChatGPT，你问它看这个手表并告诉我现在几点，它失败了，对吧？所以你可以说，

也许——这是LLM的一个经典测试。但你可以说，好吧，也许这张图像太——

缩小了，它只会在我们提高分辨率时表现得更好，并且更容易找到这些细粒度特征，比如手表指针指向哪里，没有骰子。你可以说，好吧，也许模型只是不知道如何通过知道指针的位置来告诉时间，但如果你实际上以文本形式提示它，它很容易告诉时间。因此，对我来说，这证明了这些LLMs实际上无法看到手表指针的位置，也无法看到这些细节。那么问题是，为什么呢？对于你们那些人类头脑的朋友们，

Cloud也失败了。因此，我2024年视觉最佳论文的第一个选择是这篇MMVP论文，它试图调查为什么LLMs没有能力看到细粒度细节。因此，例如，它提出了很多这样的图像，你问它一个对我们来说似乎非常明显的问题，比如校车朝哪个方向？它回答错误。然后当然，它编造细节来支持它的错误主张。

因此，它找到这些图像的过程在某种程度上包含了它的假设，为什么它无法看到这些细节。

它假设那些以Clip作为视觉编码器初始化的模型没有细粒度细节，而使用Clip提取的特征，因为Clip不需要找到这些细粒度细节来正确完成其工作，即仅仅匹配标题和图像，对吧？

从高层次来看，即使ChatGPT没有使用Clip初始化，并且视觉编码器根本没有经过对比训练，仍然为了完成捕捉图像的工作，它可以在不实际找到所有对象和视觉特征的确切位置的情况下做得相当不错。

因此，这篇论文为这些类型的模型找到了一组困难的图像。它的做法是寻找在Clip空间中相似但在DynaV2空间中相距较远的嵌入。因此，DynaV2是一个基础模型，纯粹在图像数据上进行自监督训练。它使用一些复杂的学生-教师框架，但本质上，它会对图像的某些区域进行打补丁或裁剪，并尝试确保这些区域具有一致的表示，这是它学习非常细粒度视觉特征的一种方式。因此，如果你取一些在Clip空间中非常接近而在DynaV2空间中非常远的东西，你会得到一组图像。

基本上是图像对，这些图像对对于ChatGPT和其他大型语言模型来说很难区分。因此，如果你问它关于这张图像的问题，正如你从这张图表中看到的，它会对这两张图像给出相同的答案，对吧？因为从视觉编码器的角度来看，它们是同一张图像。

因此，如果你问一个问题，比如这个动物有多少只眼睛，它对两者的回答是相同的。所有这些其他模型，包括Lava，也做同样的事情。因此，这是他们创建的基准，即寻找Clip线对，即在Clip空间中相似的图像对，并基于这些图像创建多项选择问题的数据集。

那么这些模型的表现如何？嗯，真的很糟糕。因此，ChatGPT和Jim的表现比随机猜测稍好，但只有人类在这些问题上表现得非常容易的一半。

有趣的是，与这个数据集的相关性极其负面。它的表现远远低于随机猜测，这意味着这个过程非常成功地识别了Lava特别困难的图像。这是因为Lava基本上没有经过很长时间的训练，并且是从Clip初始化的。因此，你会期望它在这个数据集上表现不佳。

这篇论文尝试的一个建议解决方案是，基本上说，好吧，如果Clip特征不够，那如果我们也在Dyna特征上训练语言模型的视觉编码器呢？因此，它提出了两种不同的做法。一种是加法，即基本上在两个特征之间进行插值。另一种是交错，即在两个特征的组合上进行训练。

因此，当你进行特征的加法混合时，有一个非常有趣的趋势。因此，零是所有Clip特征，1是所有DynaV2特征。

我认为首先查看最右侧的图表是有帮助的，因为随着你增加DynaV2特征的数量，你的模型在实际语言建模任务上的表现越来越差。这是因为DynaV2特征完全以自监督的方式和完全在图像空间中训练。它对文本一无所知。这些特征与这些文本模型并不兼容。你可以尽情训练适配器，但似乎它处于一种非常陌生的语言中，这对这些模型来说是一个非常困难的优化。

因此，这在左侧的情况中得到了支持，即是的，随着你包含更多DynaV2特征，它在回答这些问题时表现得更好，直到某个点。但是当你过度饱和时，它完全失去了回答语言和执行语言任务的能力。因此...

你还可以看到通过交错，他们基本上将进入这些模型的令牌数量翻倍，并且只是在两个特征上进行训练。它仍然没有真正解决MMVP任务。它使Lava的表现比随机猜测高出1.5，但显然仍然没有接近ChatGPT或任何人类的表现。

显然，直接使用DynaV2特征的建议解决方案是行不通的。基本上，这意味着作为视觉基础模型，DynaV2将不足以处理语言任务。

因此，我2024年最佳论文的下一个选择是Florence 2，它试图通过不仅纳入空间层次这一维度（即像素级理解），还确保包括他们所称的语义粒度来解决这个问题，最终目标基本上是拥有足够的特征来找到图像中的对象，因此它们具有足够的像素信息，但也可以被讨论和推理。

这就是语义粒度轴。因此，这里是他们所做的三种不同标记范式的示例。因此，他们创建了一个大型数据集。其中一种是文本，即仅仅是标题。你会期望仅在标题上训练的模型具有类似于ChatGPT的表现，并且没有空间层次，没有

在像素级上有意义的特征。他们添加了另一种类型，即区域文本对，基本上是对区域进行分类，或者进行目标检测，或者对该区域进行实例分割，或者对该区域进行标题描述。然后他们有文本短语区域注释，基本上是一个三元组。基本上，不仅有一个你描述的区域，你还找到它在关于图像的描述性段落中的位置，这基本上试图引入对这些区域的更深入的语义理解。例如，如果你说一个女人骑在路上，你必须知道女人是什么，路是什么，以及她在上面。这基本上是在这个视觉空间中组合一堆对象，同时也在语义上思考它。它们的做法是，基本上将视觉编码器的特征直接输入到编码器-解码器变换器中。

然后他们训练了许多不同的任务，如目标检测等，作为语言任务。我认为这是我们在2024年看到的一个重要趋势，即这些视觉语言模型在像素空间中以语言方式运作。因此，他们引入了一些新的令牌来指向位置。

那么它是如何工作的？它的实际表现如何？如果你查看右侧的图表，使用Dino框架，你的预训练Florence 2模型转移得非常好。他们在COCO上获得了60%的mAP，这接近最新技术，并且他们训练得更高效。

因此，他们收敛得更快，这两者都表明他们实际上有效利用了预训练权重。那么它的不足之处在哪里？因此，这些模型，我忘了提到，Florence是0.2亿和0.7亿参数计数。因此，它们在作为语言模型时非常小。

我认为这个框架，你可以看到饱和。因此，这张图表显示的是，如果你仅在图像级和区域级注释上训练Florence 2模型，而不包括像素级注释（如分割），它实际上在目标检测方面表现得更好。

这意味着它无法学习所有它试图学习的视觉任务，因为它的容量不足。

所以我希望看到这篇论文探索更大的模型规模，这将我们带到2024年的下一个大论文或两篇论文。因此，PolyGemma在今年早些时候发布。

PolyGemma 2在一两周前发布。我忘了提到，你实际上可以在RoboFlow上标记文本数据集，并训练Florence 2模型，你实际上可以在RoboFlow上训练PolyGemma 2模型，我们在发布后的14小时内将其引入平台，这让我非常兴奋。

所以，PolyGemma 2，PolyGemma基本上做的是同样的事情，但它不是做编码器-解码器，而是将所有内容直接输入到仅解码器的变换器模型中。但它还引入了位置令牌的概念，以指向像素空间中的对象。PolyGemma 2，PolyGemma使用Gemma作为语言编码器，并使用Gemma2B。

PolyGemma 2引入了使用多种不同大小的语言编码器。因此，他们解决了必须进行编码器-解码器的概念，使用了前缀损失的概念。这基本上意味着，当它自回归生成令牌时，所有这些令牌都在前缀中，就像它正在查看的图像以及它试图执行的任务描述。

它们彼此完全关注，这意味着，你知道，它可以更容易地找到高层次的特征，找到特征也更容易。因此，这是一种任务的示例，即用英语描述任务，然后给出所有这些，你要求它对这两类对象进行分割，然后它使用这些令牌找到它们的位置，并使用某种掩码的编码找到它们的掩码。

是的，因此，我对PolyGemma 1的一个批评是，你会发现，在看到300百万个示例后，作为预训练模型的性能就会饱和。因此，这张图表表示的是，在他们尝试的所有下游任务中，每个蓝点都是性能。你可以看到，在看到300百万个示例后，它在所有下游任务上的表现相当均匀，最多达到10亿个示例，这对我来说也暗示了这个模型的容量不足。

PolyGemma 2，你可以看到在目标检测上的结果。因此，这些结果被转移到COCO上。你可以看到这也指向容量的增加对模型的帮助。你可以看到，随着分辨率和语言模型的参数计数的增加，性能也在增加。

因此，分辨率是显而易见的，显然有助于找到图像中的小物体。但还有另一个原因，这有点给模型提供了思考的注册，并在做出预测时给它更多的令牌进行处理。但是，是的，你可以说，哦，43.6，这并不算太好，Florence 2得了60。但这并不是在这个语言或图像编码器上训练dino或debtors。它在COCO上进行原始语言建模任务。因此，它没有任何花哨的功能。它没有任何复杂的损失。它甚至没有二分图匹配或其他任何东西。

好的，最大的结果之一，也是我对这篇论文感到非常兴奋的原因是，他们在MMVP上超越了其他所有东西。我是说，47.3，当然，这远远低于人类的准确性，后者是94%，但对于一个20亿参数的语言模型来说，能够超越ChatGPT，这是相当了不起的。

这也将我们带到2024年最佳论文的最后一个选择，即AIMV2。因此，AIMV2基本上说，好吧，也许这个语言模型，像，可能提出所有这些特定的注释来找到特征和高保真度的像素空间并不是必需的。我们可以提出一个更简单、更美丽的想法，以结合图像令牌和像素令牌，以便与语言任务接口。

这很好，因为它可以扩展，如果你不必提出所有这些注释，你可以提出更多的数据，对吧？因此，它的工作方式是，它做的事情与PolyGemo非常相似，你有一个视觉编码器，将图像令牌转入仅解码器的变换器。

但有趣的是，它还自回归地尝试学习图像令牌的均方误差。因此，不必提出花哨的目标检测或语义或分割标签，你可以尝试重建图像，并让它以这种方式学习细粒度特征。

它以一种我认为很美丽的方式进行，兼容PolyGemma的思维方式，即随机抽样前缀长度，并仅使用这个数量的图像令牌作为前缀。因此，做类似的事情与因果关系。因此，因果关系与前缀是右侧的注意掩码。

因此，它在随机抽样的图像令牌上进行全块注意，以重建图像的其余部分和该图像的下游标题。因此，这是他们训练的数据集。它是图像或互联网规模的数据，非常高质量的数据，由数据过滤网络论文创建，基本上是也许是现存的最佳clip数据。

我们可以看到，这终于是一个不会饱和的模型。即使在最高参数计数下，它似乎在看到更多和更多的样本时，性能也在提高。因此，你可以认为，如果我们继续增加参数计数并增加样本数量，这就是语言模型的思维方式，那么它将继续变得更好。

因此，它在找到时，哦，它也随着分辨率的提高而改善，这对于一个模型来说是可以预期的。这是ImageNet分类准确性，但如果你提高分辨率，它的表现会更好，这意味着它实际上在利用和找到细粒度视觉特征。

那么与COCO上的CLIP相比，它的表现如何？好吧，你可以看到，如果你在上面加一个变换器检测头，进入COCO，它的得分是60.2，这也接近Soda，这意味着它在找到视觉特征方面表现得非常好，但你可以说，等等。

CLIP得到了59.1，所以。这如何证明你的主张呢？因为这是否意味着CLIP，众所周知，CLIP盲目并且在MMVP上表现不佳，能够在这个细粒度视觉特征任务的目标检测上取得很高的表现，因为他们在大量数据上进行训练。

他们在对象365、COCO、Flickr和其他所有地方进行训练。因此，我认为这个基准并没有很好地展示出AIMV2作为预训练模型的优秀表现。我们希望看到在更少的数据示例上进行的表现，而不是在目标检测上训练到收敛。因此，在现实世界中看到它，比如在RoboFlow 100这样的数据集上，我认为会非常有趣。

我们的，最后，2024年的最终选择是Moondream。因此，介绍Vic来谈谈这个。

从视觉编码器直接到编码器-解码器变换器。然后他们训练了许多不同的任务，比如目标检测等，作为语言任务。我认为这是我们在2024年看到的一个重要趋势，这些视觉语言模型在像素空间中以语言方式运作。因此，他们引入了一些新的标记来指向位置，并且

在像素空间中。那么它是如何工作的呢？它实际上表现如何？我们可以看到，如果你查看右侧的图表，使用Dyno框架，你的预训练Florence 2模型转移得非常好。他们在Cocoa上获得了60%的mAP，这接近于最先进的水平。他们的训练效率更高。

更高效。因此，他们收敛得更快，这两者都表明他们实际上有效地利用了预训练权重。那么它的不足之处在哪里？我忘了提到，Florence的参数数量为0.2亿和0.7亿。因此，在语言模型方面，它们非常小。我认为

这个框架你可以看到饱和，所以这个图表显示的是，如果你仅仅基于图像级别和区域级别的注释训练Florence 2模型，而不包括像素级别的注释，比如分割，它实际上作为目标检测器的表现更好。

这意味着它实际上无法学习所有它试图学习的视觉任务，因为它的容量不足。因此，我希望看到这篇论文探索更大的模型规模，这将引导我们进入2024年的下一篇重要论文，或者说两篇论文。Polygema今年早些时候发布。Polygema 2大约一周或两周前发布。

哦，我忘了提到，你实际上可以在RoboFlow上训练标记文本数据集，你可以训练Florence 2模型，你也可以在RoboFlow上训练PolyGemma 2模型，我们在发布后的14小时内就将其引入平台，这让我非常兴奋。因此，PolyGemma 2--所以PolyGemma基本上做的是同样的事情，但不是做编码器-解码器，而是将所有内容直接放入解码器-only变换器模型中。但它还引入了位置标记的概念，以指向像素空间中的对象。

PolyGemma2使用Gemma作为语言编码器，并使用Gemma2b。PolyGemma2引入了使用多种不同大小的语言编码器。

因此，他们解决编码器-解码器问题的方式是使用前缀损失的概念，这基本上意味着当它自回归生成标记时，前缀中的所有标记，就像它正在查看的图像以及它试图执行的任务描述，它们完全相互关注，这意味着它可以

找到高层次的特征，前缀更容易为后缀着色输出，也更容易找到特征。因此，这是一种训练任务的示例，你用英语描述任务，然后给它所有这些

你要求它对这两个类的对象进行分割，然后它使用这些标记找到它们的位置，并使用某种掩码编码找到它们的掩码。

是的，所以我对PolyGemma 1的一个批评是，你发现性能在仅仅看到3亿个示例后就饱和了。因此，这个图表表示的是每个蓝点在某个下游任务上的表现。你可以看到，在看到3亿个示例后，它在所有下游任务上的表现都差不多，

在他们尝试的所有任务中，看到的示例数量多达10亿，这在我看来也暗示了这个模型的容量不足。PolyGemma 2，你可以看到目标检测的结果。因此，这些结果被转移到Cocoa上。

你可以看到，这也指向了容量增加对模型的帮助。你可以看到，随着分辨率的增加和语言模型参数数量的增加，性能也在提高。因此，分辨率是有意义的。显然，它有助于找到图像中的小对象。但从另一个原因来看，这也有意义，因为它给模型提供了思考的注册，并在做出预测时提供了更多的标记进行处理。

但是，是的，你可以说，哦，43.6，这并不算太好。Florence 2得了60。但这不是在这个语言或图像编码器上训练一个dyno或debtor。它是在Cocoa上进行原始语言建模任务。因此，它没有任何花哨的东西。它没有任何复杂的损失。它甚至没有二分图匹配或其他任何东西。好的，重要的结果之一，也是我对这篇论文感到非常兴奋的原因

是他们在MMVP上超越了其他所有人。我是说，47.3，当然，这远远低于人类的准确性，再次是94%。但对于一个20亿参数的语言模型来说，能够达到ChatGPT，这是相当了不起的。这也引导我们进入2024年最佳论文的最后选择，即AIMv2。因此，AIMv2大致上说，好的，

也许这个语言模型，可能提出所有这些特定的注释以高保真度和像素空间中找到特征并不是必需的。我们可以提出一个更简单、更美丽的想法，以一种适合语言任务的方式结合图像标记和像素标记。

这很好，因为如果你不必提出所有这些注释，你可以生成更多的数据，对吧？因此，它的工作方式与PolyGemo非常相似，你有一个视觉编码器，将图像标记转储到解码器-only变换器中。

但有趣的是，它还自回归地尝试学习图像标记的均方误差。因此，不必提出复杂的目标检测或语义或分割标签，你可以尝试重建图像，并让它以这种方式学习细粒度特征。

它以一种美丽的方式进行，这与PolyGemma的思路兼容，即随机抽样前缀长度，并仅使用这个数量的图像标记作为前缀。与前缀的因果关系进行类似的操作是右侧的注意力掩码。

使用一些随机抽样的图像标记数量进行全块注意力，然后重建图像的其余部分和该图像的下游标题。因此，这是他们训练的数据集。这是互联网规模的数据，非常高质量的数据，由数据过滤网络论文创建，基本上是可能存在的最佳剪辑数据。

我们可以看到，这终于是一个不会饱和的模型。即使在最高的参数数量下，它似乎也在随着看到的样本数量的增加而提高性能。因此，你可以认为

如果我们继续增加参数数量并增加示例场景，这是语言模型的思维方式，那么它将继续变得更好。那么它在寻找方面的表现如何？哦，它也随着分辨率的提高而改善，这对于一个模型来说是可以预期的。这是ImageNet分类准确性。但是，是的，如果你提高分辨率，它的表现会更好，这意味着它实际上在利用和发现细粒度的视觉特征。

那么，与Clip在Cocoa上的表现相比，它实际上表现如何？好吧，你可以看到，如果你在其上加上一个变换器检测头并在Cocoa上训练，它可以达到60.2，这也接近Soda，这意味着它在寻找视觉特征方面表现得非常好。但是你可以说，等一下，Clip得到了59.1，所以...

这怎么能证明你的说法呢？因为这是否意味着Clip被认为是盲目的，并且在MMVP上表现不佳，能够在这个细粒度视觉特征的目标检测任务上取得很高的表现？

他们在大量数据上进行训练。他们在Objects 365、Cocoa、Flickr和其他所有地方进行训练。因此，我认为这个基准并没有很好地展示MV2作为预训练模型的优秀程度。我们希望看到在较少数据示例上的表现，而不是在目标检测上训练到收敛。因此，在像RoboFlow 100这样的数据集上看到它在现实世界中的表现，我认为会非常有趣。

我想我们2024年的最终选择将是Moon Dream。因此，介绍Vic来谈谈这个。但总的来说，这正是我所寻找的。2024年最佳，做得非常好。有人在Vic准备的时候有问题吗，比如视觉方面的？是吗？Vic，继续。我们在准备的时候，嗨，谢谢你精彩的演讲。奇怪和令人惊讶的是，基础模型公司

甚至这些MLM，在检测方面仍然不如RT-Tether。如果你想花很多钱来自动标记你的检测数据集，如果你把它交给OpenAI或Claude，那将是一个巨大的浪费。因此，我很好奇，就像PolyGemma 2一样，表现更差。所以我想听听你的想法，

为什么没有人破解代码，真正击败计算机视觉中的专家模型，就像他们在LLM领域所做的那样？

这是一个非常有趣的问题。我认为这取决于具体领域。对于图像分类，它基本上已经达到了。在AIMV2中显示，简单的注意力探测器在预训练特征上获得了90%，这是任何人都能做到的。

更大的问题是，为什么它没有转移到目标检测，尤其是实时目标检测？我认为在我看来，有两个答案。一个是目标检测真的非常非常复杂，架构是超级领域特定的。我们看到所有这些超级复杂的东西，构建一个自然转移的东西并不容易，而图像分类，clip预训练转移得非常容易。

另一个问题是，直到最近，实时目标检测器甚至没有真正受益于预训练。你看到YOLOs基本上饱和，使用预训练模型时几乎没有差异。人们没有关注实时检测上更好预训练的效果，这并不令人惊讶。也许在明年会有所改变。这回答了你的问题吗？

你们能听到我吗？是的，我想补充的一点是，或者说总结一下，直到2024年，我们还没有看到基于变换器的目标检测器和复杂损失的结合。PolyGemma也面临同样的问题，这基本上意味着这些ResNet或卷积模型有

所有这些极端优化来进行目标检测。但基本上，我认为现在已经表明卷积模型根本不受益于预训练，并且没有变换器模型的智能水平。太棒了。嗨，你能听到我吗？酷。我听到你了，看到你了。你在分享你的屏幕吗？我可能忘了这样做。让我来做一下。抱歉，应该这样做。这里是我的共享屏幕。

哦，经典。你可能需要退出Zoom并重新启动。没关系。我们有你的屏幕捕获。我会确保它可见。那么，让我们开始你的Zoom。好的。很简单。我要为你做。你想退出Zoom吗？不。是的。你看。完美。

大家好，我的名字是Vic。我已经在Moonream工作了将近一年，正如Sean提到的。我刚刚去查看，结果发现我发布的第一个版本是2023年12月29日。这是一次迷人的旅程。因此，Moonream最初是一个小型视觉语言模型。从那时起，我们的范围稍微扩大了一些，还尝试构建一些工具、客户端库等，以帮助人们真正部署它。与传统的

大型模型专注于助手类型的用例不同。我们专注于构建开发人员可以使用的能力，抱歉。是的，我们专注于构建开发人员可以用来构建可以在任何地方运行的视觉应用程序的能力。因此，在许多情况下，对于视觉而言，比文本更重要的是，你确实关心能够在边缘、实时等运行。

这非常重要。我们支持不同的输出模式。有查询，你可以问关于图像的一般英语问题，并得到人类般的答案。还有字幕，许多用户使用它来生成合成数据集，然后训练扩散模型等。我们在这里做了很多工作，以最小化幻觉，因此使用得非常多。我们内置了开放词汇目标检测，类似于一些最近的模型，如Pally Gem等，而不是必须训练一个专用模型，你可以

只需说，给我看看这张图像中的足球，或者看看这张图像中是否有鹿，它就会检测到。最近，本月早些时候，我们发布了指向能力，如果你只对对象的中心感兴趣，你可以直接问它指出在哪里。这在进行UI自动化时非常有用。让我们看看。我们现在有两个模型。一个是通用的2B参数模型，

如果你在服务器上运行是可以的。对于我们的本地Lama桌面朋友来说很好，它可以在旗舰手机上运行，但它从未真正实现能够在任何地方运行的承诺。上周发布了一个新的0.5B参数模型。

这应该被视为蒸馏目标，而不是通用模型。如果你在旧手机或边缘设备上运行，它非常好。即使在我们尚未完全优化的推理客户端中，它也使用更少的内存。因此，我们构建0.5b模型的方式是从20亿参数模型开始，并在持续训练中进行修剪以保持性能。我们

在修剪过程中，目标是在广泛的基准测试中保持准确性。因此，我们的做法是估计模型不同组件的重要性，比如注意力头、通道、MLP行等，基本上使用基于梯度的技术。我不确定人们想知道多少细节。我们会写一篇关于此的论文，但

如果你有更多问题，请随时找我。然后我们迭代性地修剪一个小块，以最小化损失和性能，重新训练模型以恢复性能，并将其带回来。我们发布的0.5b更多的是一个证明概念，证明这是可能的。我认为这非常令人兴奋，因为这使开发人员能够使用2b参数模型进行构建，探索他们的应用程序。然后一旦他们准备好部署，

找出他们需要模型的确切内容，并将这些能力修剪成适合其部署目标的更小形式。因此，是的，我对此非常兴奋。让我给大家讲讲我最近一直在研究的另一个问题，这与我们一直在讨论的时钟示例类似。我们有一个客户联系，谈到

他们在现场有一堆仪表。这在制造和石油天然气行业非常常见，你有一堆需要监控的模拟设备。让人类查看并监控这些东西是昂贵的，并确保

当温度超过80时，系统会关闭。因此，我想，是的，这似乎足够简单。很高兴能帮助你提炼这个。让我们开始吧。结果是我们的模型根本无法做到。我去查看其他开源模型，看看我是否可以生成大量数据并从中学习。也没有成功。因此，我想，看看那些市值数百亿美元的公司能提供什么。结果是，这也不起作用。

我的假设是，这些模型的训练方式是使用大量从互联网上抓取的图像文本数据。这可能会有偏见。在仪表的情况下，大多数仪表图像在野外并不是仪表，而是产品细节图像，比如这些，总是设置为零。它与一个替代文本配对，像是GIVTO，压力传感器，PSI零到30或类似的东西。

2024 in Vision [LS Live @ NeurIPS] 57:25 Share