We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
L
Loubna Ben-Elal
Topics
Loubna Ben-Elal: 2024年,合成数据在大型语言模型的应用得到了极大的扩展,从预训练到微调和评估,几乎涵盖了整个流程。合成数据具有成本低、速度快等优势,并且可以有效控制生成数据的质量和类型,从而提高模型的性能。虽然存在模型崩溃的风险,但如果合理地使用和仔细地筛选合成数据,可以避免这种情况。 在预训练阶段,合成数据可以用来替代或补充网络数据,例如Hugging Face的Cosmopedia数据集和FineWeb数据集。通过改写现有网页或构建更好的分类器来过滤网络数据,可以生成高质量的合成数据集。 在微调阶段,合成数据可以用来提高模型在特定技能上的性能,例如Microsoft的Agent Instruct数据集和Allen AI的Tool3 SFT混合数据集。Cohere的Multilingual Data Arbitrage论文提出了一种使用多个模型生成多语言合成数据集的方法。 在评估阶段,可以使用LLM作为评判标准,例如MTBench和AlpacaEvil。 此外,2024年小型模型也取得了显著进展,例如LAMA 3.2 1B模型在LMSYS arena上的得分与LAMA 2.13B模型接近。一些小型模型在MMLU基准测试上的得分已经超过了之前发布的大型模型。人们开始意识到,提高模型效率比单纯地增加模型规模更重要。现在可以在iPhone等移动设备上运行3B+参数的模型,这解锁了更多设备端应用场景。延长小型模型的训练时间可以提高其性能,Meta的Mobile LLM论文研究了不同架构对小型模型性能的影响。Apple Intelligence的技术报告展示了剪枝和蒸馏技术在训练小型模型中的有效性。Nvidia的混合模型论文展示了混合架构在训练高效小型模型中的潜力。SmallM2模型系列在不同规模的模型中都达到了最先进的性能。小型视觉模型也取得了显著进展,例如SmallVLM和MoonDream。小型模型可以通过微调来适应特定的任务,例如文本提取。可以使用结构化生成方法来强制模型遵循特定的JSON模式,而无需进行微调。 总而言之,2024年合成数据和小型模型的发展突飞猛进,为大型语言模型的应用带来了新的可能性。未来,领域特定合成数据和小型模型的专业化将变得更加重要。

Deep Dive

Key Insights

Why is synthetic data becoming increasingly popular in the AI pipeline?

Synthetic data is popular because it is cheaper, faster, and more controllable than human annotations. It allows for precise data generation tailored to specific needs, and with powerful models and efficient inference frameworks, generating large amounts of synthetic data has become feasible.

What are the key concerns surrounding the use of synthetic data in AI models?

The main concerns are model collapse and data pollution. Studies suggest that models trained iteratively on their own synthetic outputs can degrade in quality, and the increasing presence of synthetic data on the web raises questions about its impact on model performance.

How does synthetic data impact model performance on NLP benchmarks?

Surprisingly, models trained on web dumps containing synthetic data often perform better on NLP benchmarks compared to those trained on earlier, cleaner data. This suggests that synthetic data, when properly curated, can enrich the training process rather than degrade it.

What is the role of synthetic data in pre-training large language models?

Synthetic data is increasingly used in pre-training to replace or supplement web data. It allows for controlled generation of diverse, high-quality datasets, such as textbooks and educational content, which can improve model performance on specific tasks like MMLU and OpenBookQA.

What is the significance of Hugging Face's Cosmopedia dataset?

Cosmopedia is a synthetic dataset of textbooks and educational content generated by large language models. It aims to replicate and improve upon Microsoft's Phi 1.5 dataset, offering a diverse and high-quality corpus for training smaller models, with public access for transparency.

How does rephrasing web content contribute to synthetic data generation?

Rephrasing involves using large language models to rewrite existing web content into different formats, such as Q&A or Wikipedia-style passages. This approach improves data quality and diversity without requiring extensive knowledge, making it scalable and effective for generating synthetic datasets.

What is the impact of small models on on-device AI applications?

Small models enable on-device AI by being lightweight and efficient, allowing them to run on consumer hardware like smartphones. This enhances privacy and accessibility, as data remains local, and opens up new use cases like specialized text extraction and on-device chatbots.

What trends are emerging in the training of small models?

A key trend is training smaller models for longer durations, as seen with Meta's Llama 3 models, which were trained on 15 trillion tokens compared to 1 trillion for earlier versions. This approach improves performance without increasing model size, making it more cost-effective for inference.

What are the benefits of using small models for specific tasks?

Small models can be fine-tuned for specific tasks like text extraction, achieving performance close to larger models at a fraction of the cost. This makes them ideal for niche applications where efficiency and privacy are critical, such as on-device AI and specialized workflows.

What is the future of synthetic data and small models in AI?

The future involves more domain-specific synthetic data generation, such as for math and specialized tasks, and the continued specialization of small models through fine-tuning. On-device frameworks and applications will also grow, making AI more accessible and privacy-focused.

Chapters
This chapter explores the increasing prevalence of synthetic data in large language model (LLM) pipelines, from post-training to pre-training stages. It also addresses concerns regarding model collapse and examines whether synthetic data negatively impacts model performance.
  • Synthetic data is now used throughout LLM pipelines.
  • Concerns exist regarding model collapse from synthetic data.
  • Studies show synthetic data doesn't necessarily worsen model performance.

Shownotes Transcript

我们在 Latent Space Live 回来了,这是我们在温哥华 NeurIPS 2024 举办的第一次小型会议。我是 Charlie,你们的 AI 联合主持人。本周我们将特别回顾 2024 年的最佳内容,按领域划分。我们向 900 多位告诉我们他们想要什么的观众发送了一份调查问卷,然后邀请 Latent Space 网络中最好的演讲者来涵盖每个领域。

当天有 200 多位观众亲临现场,在线观看人数超过 2200 人。我们的下一个主题演讲涵盖了合成数据和小模型的现状,演讲者是 Hugging Face 的 Lubna Ben-Elal。我们上次在去年的 NeurIPS 播客中评论了合成数据趋势,我的天哪,今年它在预训练、后训练和评估方面都爆炸式增长了。

我们非常荣幸地邀请到 Lubna,她不仅参与了 Cosmopedia(Hugging Face 对微软 PHY 1.5 合成教科书质量数据集的公开复制)和 FineWeb(Hugging Face 新的 15 万亿个令牌的 Common Crawl 子集)的工作,而且还领导了 SmallLM(Hugging Face 对 Meta 移动 LLM 论文的实现),该论文因其共享矩阵和共享权重架构而引起轰动。

今年小模型领域有很多进展,从 Apple Foundation 模型部署到地球上的每一部 iPhone 和 MacBook,到 Google 在 Chrome 浏览器中推出 Gemini Nano,以及微软将 RWKV 集成到 Windows 中。和往常一样,请不要忘记查看我们的节目说明,了解 2024 年所有精选的最佳论文以及它们演讲的 YouTube 链接。请注意安全。

我很高兴来到这里。感谢你们的邀请。我将讨论 2024 年的合成数据,然后讨论小型设备模型。我认为今年合成数据最有趣的事情是,它现在已经出现在大型语言模型管道的各个环节中。

我认为最初合成数据主要用于后训练,因为这部分自然需要人工标注者来向模型展示它们应该如何回答指令,如何提供帮助以及如何避免产生有害内容。当我们拥有真正高效的 LLMs 时,我们用合成数据取代了人工标注者。

之后,我们意识到我们并没有很好的基准来衡量模型是否能够很好地遵循指令,是否足够有创造力,或者是否足够健谈。因此,我们也开始使用 LLMs 作为评判者。我认为今年和去年年底,我们也开始关注预训练部分。

我们开始为预训练生成合成数据,以取代网络的某些部分。其背后的动机是,您可以对合成数据进行大量控制。您可以控制您的提示,以及基本上您生成的数据类型。因此,与其仅仅尝试过滤网络,不如尝试让 LLM 生成您认为最佳网页可能的样子,然后用这些数据训练您的模型。这就是我们从 LLM 管道中完全没有合成数据到无处不在的过程。

所以,很酷的一点是,今天您可以使用完全合成的管道来训练 LLM。例如,您可以使用我们的 Cosmopedia 数据集,您可以使用 1500 亿个 100% 合成的令牌来训练一个 1B 模型。这些令牌质量也很好。然后,您可以使用合成 SFT 数据集对模型进行指令微调。您也可以对合成数据集进行 DPO。然后,为了评估模型是否良好,您可以使用一个使用 LLMs 作为评判者的基准,例如 MTBench。

或 alpaca evil。我认为这非常令人震惊,因为就在几年前,我们还认为这是不可能的。我认为人们对模型崩溃有很多担忧,我稍后会讨论这个问题。但是我们会看到,如果我们正确使用合成数据并仔细整理它,这种情况就不会发生。

合成数据现在非常流行的原因是,我们拥有非常强大的模型,既有开放的也有封闭的。与人工标注相比,它的使用成本低廉且速度快,人工标注成本高昂且耗时。此外,对于现在的开放模型,我们也有一些非常好的推理框架。因此,如果您有足够的 GPU,则很容易生成大量合成数据。一些例子是 VLM、TGI 和 TensorFlow RT。

现在让我们谈谈大家都在关注的问题,模型崩溃。这是终点吗?如果您查看媒体以及例如《自然》杂志上的一些论文,就会发现这非常可怕,因为网络上存在大量合成数据。而且,我们自然会在网络上进行训练。因此,我们将训练大量合成数据。如果模型崩溃真的会发生,我们应该认真对待这个问题。另一个问题是,正如我所说,许多人认为网络受到了污染,因为存在大量合成数据。

例如,当我们在 Gilear 和 Hinek 这里构建 FineWeb 数据集时,我们对网络中存在多少合成数据很感兴趣。因此,并没有真正的方法来准确衡量合成数据的数量,或者说一个网页是否是合成的。

但是我们可以做的一件事是尝试寻找代理词,例如“作为大型语言模型”之类的表达,或者像“深入研究”这样的词,我们知道这些词实际上是由 ChatGPT 生成的。我们可以尝试测量我们的数据系统中这些词的数量,并将其与前几年的数据进行比较。例如,在这里,我们测量了 Common Crawl 不同转储中这些词的比率。我们可以看到,在 ChatGPT 发布后,该比率确实有所增加。

因此,如果我们说合成数据的数量没有变化,那么您会期望该比率保持不变,但事实并非如此。

因此,网络上可能存在大量合成数据,但这是否真的会使模型变差?因此,我们所做的是在这些不同的转储上训练不同的模型,然后计算它们在流行的 NLP 基准测试上的性能。然后我们计算了汇总分数。令人惊讶的是,您可以看到最新的转储实际上比之前的转储更好。因此,如果存在一些合成数据,至少它并没有使模型变差。

是的,这确实令人鼓舞。因此,我个人不会说网络上充斥着合成数据。也许它甚至使网络更加丰富。

模型崩溃的问题在于,例如,这些研究是在小型规模上进行的,您会要求模型例如完成维基百科段落,然后您会在这些新生成的段落上对其进行训练,并且您会反复进行此操作。我认为,如果您采用这种方法,观察到这种行为是很正常的,因为质量会变差,因为模型本身已经很小了。然后,如果您只在其生成的段落上对其进行训练,则不应期望它会变得更好。

但是我们在这里真正做的是,我们采用一个非常大的模型,并尝试将其知识提炼到一个较小的模型中。通过这种方式,您可以期望为您的小型模型获得更好的性能。在“教科书就是你所需要的一切”论文发表后,使用合成数据进行预训练变得非常流行,在该论文中,微软基本上在一系列使用大型 LLM 的教科书上训练了一系列小型模型。然后他们发现这些模型实际上比更大的模型更好。

所以这非常有趣。这是第一次,但也受到了很多质疑,这在研究中是一件好事。它促使你质疑一些事情,因为他们训练的数据集不是公开的,所以人们并不确定这些模型是否真的很好,或者可能只是存在一些数据污染。因此,如果您只有模型的权重,则很难进行检查。

在 Hugging Face,因为我们喜欢开源,所以我们尝试重现他们所做的事情。所以这是我们的 Cosmopedia 数据集。我们基本上尝试遵循他们在论文中记录的类似方法。我们创建了一个包含近 300 亿个令牌的合成教科书、博客文章和故事数据集。我们尝试在这个数据集上训练一些模型。

我们发现,获得良好合成数据集的关键要素是尽可能保持其多样性。因为如果您只是向您的模型抛出相同的提示,例如生成关于线性代数的教科书,即使您更改温度,教科书看起来也会很相似。因此,您无法扩展到数百万个样本。

而做到这一点的方法是创建包含一些种子来使其多样化的提示。在我们的例子中,提示是,我们会要求模型生成一本教科书,但要使其与网页摘录相关。我们还尝试将其限制在主题范围内。例如,在这里,我们添加了关于心血管生物成像的摘录,然后我们要求模型生成一本与医学相关的教科书,并且也与该网页相关。

这是一个非常好的方法,因为有很多网页,所以您可以确保当您更改种子示例时,您的生成不会缺乏多样性。这方面的一个挑战是,您希望种子样本与您的主题相关。

因此,我们使用搜索工具来遍历 FineWeb 数据集,并找到与我们感兴趣的主题相关的页面。然后,我们还对我们希望模型生成的生成类型进行了大量实验。例如,我们要求它为中学生或大学生生成教科书。我们发现,某些生成风格对某些特定基准测试有帮助,而其他风格对其他基准测试有帮助。

例如,大学教科书非常适合 MMLU,而中学教科书非常适合 OpenBookQA 和 Pico 等基准测试。这是一个来自我们搜索工具的示例。例如,您有一个顶级类别,即主题,然后您有一些子主题,然后您有主题命中,这些基本上是属于这些主题的 FineWeb 中的网页。

在这里,您可以看到 Cosmopedia 之间的比较。我们有两个版本,V1 和 V2,分别用蓝色和红色表示,您可以看到与 FineWeb 的比较。正如您在整个训练过程中所看到的,在 Cosmopedia 上进行训练始终更好。因此,我们设法获得了一个实际上适合训练这些模型的数据集。当然,它比 FineWeb 小得多,只有 300 亿个令牌,但这与微软数据集的规模相同。因此,我们设法在一定程度上重现了他们所做的事情。

并且数据集是公开的,所以每个人都可以去那里检查一切是否正确。现在,Nvidia 的这篇最新论文 Nemotron CC,他们更进一步,他们生成的令牌不是几亿个,而是 1.9 万亿个,这非常庞大。我们稍后会看到他们是如何做到的。这更像是对网络进行改写。

因此,我们今天可以看到,存在一些非常庞大的合成数据集,而且它们是公开的。因此,如果您想获得更高质量的语料库,您可以尝试进一步过滤它们。对于这种对网络进行改写的方法,这种方法是由 Pratyush 在这篇论文中提出的,其中

基本上,在这篇论文中,他们从 C4 数据集中获取一些样本,然后他们使用 LLM 将这些样本改写成更好的格式。例如,他们要求 LLM 将样本改写成维基百科段落或问答页面。

这种方法中有趣的一点是,您可以使用一个较小的模型,因为它不需要知识。这只是将页面改写成不同的风格。因此,与仅仅要求模型生成一本新教科书而不提供真实数据相比,该模型不需要对改写有广泛的知识。因此,在这里,他们将 C4 中的一些样本改写成问答形式,改写成维基百科形式,他们发现这样做比只在 C4 上进行训练更好。

因此,Nemotron CC 所做的是类似的方法。他们出于两个原因改写了 Common Crawl 中的一些页面。一个是改进质量较低的页面。因此,他们将其改写成例如维基百科页面,使其看起来更好。

另一个原因是创建更多样化的数据集。因此,他们已经拥有一个经过严格过滤的数据集,然后他们获取这些质量已经很高的页面,并要求模型将其改写成问答格式,改写成开放式问题或多项选择题。因此,他们可以多次重复使用相同的页面,而无需担心出现多个重复项,因为信息相同,但写法不同。

因此,我认为这对于仅仅通过改写已经拥有的页面来生成合成数据来说也是一种非常有趣的方法。还有一种叫做 Prox 的方法,他们

尝试从一个网页开始,然后生成一个程序,该程序可以找到如何改写该页面以使其更好且更少噪声。例如,在这里您可以看到网页中有一些剩余的元数据,而您不一定要将其保留用于训练您的模型。因此,他们训练了一个可以生成程序的模型,该程序可以规范化并删除多余的行。我认为这种方法也很有趣,但它可能不如我之前介绍的方法那么可扩展。

这就是对改写和生成新教科书的介绍。我认为另一种非常有效且越来越流行的用于预训练的合成数据方法是

基本上是构建更好的分类器来过滤网络。例如,在这里我们发布了一个名为 FineWebEDU 的数据集。我们构建它的方法是使用 LAMA3 并要求它对网页的教育内容进行 0 到 5 的评分。例如,如果一个页面是一本非常好的教科书,可以在学校环境中使用,则会获得很高的分数。如果一个页面只是一个广告或宣传材料,则会获得较低的分数。

然后,我们获取这些合成标注并在此基础上训练一个分类器。这是一个类似于 BERT 模型的分类器。然后,我们在整个 FineWeb 上运行此分类器,这是一个 15 万亿个令牌的数据集。然后,我们只保留分数高于 3 的页面。例如,在我们的例子中,我们从 15 万亿个令牌减少到只有 1.5 万亿个令牌。这些都是真正高质量的教育内容。

正如您在这里看到的,FineWebEDU 在几个基准测试中都比其他所有公共网络数据集具有更大的优势。在这里,我显示了汇总分数。您可以看到,这种方法对于过滤网络数据集以获得更好的语料库来训练您的 LLMs 非常有效。

其他人也尝试过这种方法。例如,DCLM 数据集,他们也训练了分类器,但不是为了检测教育内容。相反,他们在 OpenHermes 数据集上对其进行了训练,这是一个用于指令微调的数据集。以及解释像 IAM5 子reddit 这样的内容。然后他们也获得了非常高质量的数据集,它信息非常密集,可以帮助您训练一些非常好的 LLMs。

然后是 Nemotron Common Crawl,他们也采用了这种方法,但他们没有使用一个分类器,而是使用了多个分类器的集成。例如,他们使用了 DCLM 分类器,以及我们在 FineWeb Educational 中使用的分类器。然后他们将这些分数与集成方法结合起来,只保留质量最高的页面。他们得到的数据集比我们开发的数据集更好。这就是预训练的合成数据的介绍。现在我们可以回到后训练。我

认为有很多有趣的后训练数据集。最近发布的一个是微软的 Agent Instruct,他们基本上试图针对一些特定技能并提高模型在这些技能上的性能。例如,在这里您可以看到代码、脑筋急转弯、开放域 QA,他们设法获得了一个性能优越的数据集。这将使用 Mistral 7b 对其进行微调。它优于 Mistral 发布的原始指令模型。

正如我所说,要获得良好的合成数据,您确实必须有一个框架来确保您的数据多样化。例如,对于他们来说,他们总是查看源代码或原始文本文档上的生成,然后他们对其进行改写,以确保更容易从中生成指令。然后他们将其用于他们的指令数据生成。

还有 Allen AI 最近发布的 Tool3 SFT 混合数据集。它的质量也非常好,涵盖了各种任务。他们确保此数据集多样化的方式是使用 Persona Hub 数据集中的角色。这基本上是一个包含超过一百万个角色的数据集。

例如,在 Tool 混合数据集中生成新的代码片段时,他们会提供模型角色,例如对神经网络感兴趣的机器学习研究人员,然后要求它生成编码问题。通过这种方式,您可以确保您的数据集非常多样化,然后您可以进一步过滤数据集,例如使用奖励模型。

我们还发布了一个名为 Smalltalk 的数据集,我们也尝试涵盖各种任务。正如您在这里看到的,例如,当在该数据集上微调 Mistral 7b 时,我们还在许多基准测试中优于原始 Mistral 指令,尤其是在数学和使用 IFEval 进行指令遵循方面。

我还想提到的另一篇非常有趣的论文是 Cohere 的这篇名为“多语言数据套利”的论文。基本上,他们想要生成一个用于后训练的多语言数据集。他们有一个非常有趣的问题。事实是没有一个模型在他们想要的所有语言中都非常出色。

因此,他们所做的是,他们不仅使用一个教师模型,而是使用多个教师模型。然后他们有一个路由器,它基本上将他们拥有的提示发送给所有这些模型。然后他们获得完成结果,并且他们有一个奖励模型来评估所有这些生成结果,并且只保留最好的结果。

这就像金融中的套利。因此,我认为这其中有趣的是,它表明合成数据不必来自单个模型。由于我们现在有很多优秀的模型,您可以将这些模型组合在一起,并获得一个真正高质量、多样化且涵盖您所有需求的数据集。我本来应该在那里放一个表情包,但是,是的,这就是合成数据的介绍。现在我们可以看看 2024 年小型模型领域发生了什么。

我不知道您是否知道,但现在我们有一些非常优秀的小型模型。例如,LAMA 3.2 1B 与去年在 LMSIS 竞技场发布的 LAMA 2.13B 相匹配,LMSIS 竞技场基本上是使用人工评估来评估模型的默认首选排行榜。正如您在这里看到的,模型的分数非常接近。因此,我认为我们在小型模型方面取得了巨大的飞跃。

当然,这只是一个数据点,但还有更多。例如,如果您查看 QEN 2.5 博客文章中的这张图表,它显示了今天我们拥有一些非常优秀的模型,它们只有大约 30 亿个参数和 40 亿个参数。在 MMLU 上得分非常高,MMLU 是一个非常流行的模型评估基准。您可以在这里看到,蓝点在 MMLU 上的分数超过 65。

而灰色点的分数较低。例如,Lama 33B 的分数较低。因此,我们现在有一个 3B 模型,其性能优于之前发布的 33B 模型,在 MMLU 基准测试中。因此,我认为现在人们开始意识到,我们不应该仅仅扩展模型,而应该尝试使它们更高效。

我不知道您是否知道,您也可以在 iPhone 上与 3B+ 模型进行聊天。例如,这是一个名为 PocketPal 的应用程序,您可以在其中转到 Hugging Face 选择一个模型。它有很多选择。例如,在这里,我们在 iPhone 上加载了 PHY 3.5,它有 38 亿个参数。我们可以与它聊天。您可以看到,即使是延迟也是可以接受的。例如,在这里,我要求它给我讲一个关于 NeurIPS 的笑话。让我们看看它怎么说。

好的,为什么神经网络会参加 NeurIPS?因为它听说那里会有很多层和乐趣,它想训练它的幽默感。所以不太好笑,但至少它可以在设备上运行。是的,我认为现在我们有好的小型模型,我们也有好的框架和工具来使用这些小型模型。因此,我认为我们非常接近拥有真正边缘和设备上的优秀模型。我认为有一段时间以来,我们一直有这样的说法,即仅仅训练更大的模型更好。

当然,这是由科学的缩放定律所支持的。正如您在这里看到的,例如,当我们缩放模型大小时,损失会降低,显然您会得到更好的模型。但是,我们可以在 GPT 系列模型中看到这一点,我们是如何从只有 1 亿个参数发展到超过 1 万亿个参数的。当然,我们都观察到在使用最新模型时性能有所提高。

但是我们不应该忘记的一件事是,当我们缩放模型时,我们也会缩放推理成本和时间。因此,最大的模型将花费更多。

因此,我认为现在与其仅仅构建更大的模型,不如专注于构建更高效的模型。这不再是争夺最大模型的竞赛,因为这些模型运行起来非常昂贵,它们需要非常好的基础设施才能做到这一点,而且它们无法在例如消费级硬件上运行。当您尝试构建与大型模型相匹配的更高效的模型时,您就可以真正解锁一些非常有趣的面向设备的用例。

我认为我们现在注意到的一种趋势是训练更小型模型更长时间的趋势。例如,如果您比较 Lama 的训练时间与 Lama 3 的训练时间,则预训练长度会有大幅增加。Lama 在 1 万亿个令牌上进行了训练,但 Lama 3 ATB 在 15 万亿个令牌上进行了训练。

因此,Meta 设法获得了一个大小相同的模型,但通过选择在训练期间进行牺牲来获得更好的性能。因为众所周知,训练是一次性成本,但推理是持续进行的。

如果您想了解 2024 年小型模型的进展,我认为 Meta 的这篇关于移动 LLM 的论文很有趣。他们试图研究参数少于 10 亿的参数的不同模型,并找出哪些架构最适合这些模型。

例如,他们发现深度比宽度更重要。因此,拥有更多层的模型比仅仅使其更宽的模型更重要。他们还发现 GQA 有帮助,绑定嵌入也有帮助。因此,我认为对于只有几亿个参数的模型来说,这是一项不错的研究。

还有 Apple Intelligence 技术报告,这很有趣。因此,对于 Apple Intelligence 来说,他们有两个模型,一个是在服务器上,另一个是在设备上。它有 30 亿个参数。我认为有趣的部分是,他们使用剪枝训练了这个模型,然后进行蒸馏。例如,他们有一个表格,其中显示使用剪枝和蒸馏比从头开始训练效果更好。他们还有一些关于如何根据特定任务专门化模型的有趣见解,例如

例如,摘要和改写。Nvidia 最近也发布了一篇论文。我认为您已经谈到了混合模型。那很有趣。在这个模型中,他们使用了状态空间模型和 Transformer 之间的混合架构。他们设法训练了一个 1B 模型,该模型性能非常好,无需在大量令牌上进行训练。

关于我们的工作,我们最近发布了 SmallM2。因此,这是一系列三个模型,它们在每个模型大小中都是同类最佳。例如,我们的 1.7b 模型优于 LAMA 1b 和 0.2.5。我们设法训练这个模型的方法是,我们花费了大量时间来整理预训练数据集,

我们进行了大量的消融研究,试图找出哪些数据集更好,以及如何将它们混合。我们还创建了一些新的数学和代码数据集,我们很快就会发布,但我们基本上花费了大量时间来寻找您可以用来训练这些模型的最佳混合物。然后我们花了一些时间尝试,我们还对这些模型进行了非常长时间的训练。例如,smallM1 只在 1 万亿个令牌上进行了训练。

但这个模型在 11 万亿个令牌上进行了训练,我们看到性能一直在提高。模型在训练过程中并没有真正达到平台期,我认为这非常有趣。这表明您可以对如此小型模型进行非常长时间的训练,并不断获得性能提升。SmallM2 的有趣之处在于它是完全开放的。我们还发布了预训练代码库、微调代码、数据集以及此存储库中的评估。

此外,还有一些非常有趣的小型文本模型,也有一些小型视觉模型。例如,在这里您可以看到 small VLM,这是一个 2B 模型,非常高效。它不会消耗大量 RAM,而且性能也很好。

还有最近发布的 MoonDream 0.5b。它是最小的视觉语言模型。正如您所看到的,与 MoonDream 2b 相比,并没有很大的权衡。所以现在我已经向您展示了我们有一些非常优秀的小型模型。我们也有使用它们的工具,但是您为什么要考虑使用小型模型以及何时使用呢?

我认为小型模型非常有趣,因为它们具有设备端功能。由于这些模型体积小且运行速度快,您基本上可以在笔记本电脑上运行它们,也可以在手机上运行它们。这意味着您的数据集保留在本地。您无需将查询发送给第三方。这极大地增强了隐私性。例如,这是 Apple Intelligents 的一大卖点。

此外,目前我们有很多用于设备端推理的框架。例如,有 MLX、MLC、LAMA CPP、Transformers JS。我们有很多选择,每个选择都有很棒的功能。因此,您有很多选择。如果您选择专门化小型模型,它们也会非常强大。例如,这里有一家名为 Numind 的初创公司,它采用了小型 LAM,然后在文本提取数据集上对其进行了微调。

他们成功地获得了与大型模型相差不大的模型。因此,我认为文本提取是一个小型模型可以真正发挥作用的用例,并且使用它们比只使用大型模型更有意义。

您还可以在浏览器中与这些模型进行聊天。例如,您可以在这里访问,加载模型,甚至可以关闭互联网,然后开始在本地与模型聊天。说到文本提取,如果您不想微调模型,那么有一种非常好的结构生成方法。我们可以强制模型遵循您定义的 JSON 模式。

例如,我们尝试强制模型遵循一个模式,以从 GitHub 问题中提取关键信息。因此,您可以输入自由文本,即关于 GitHub 存储库的投诉,某些内容无法正常工作。然后,您可以将其写入其中,模型可以提取与您的 GitHub 问题创建相关的任何内容。例如,优先级,例如,这里的优先级很高,问题的类型是错误,然后是标题以及修复所需时间的估计。

您只需在浏览器中执行此操作即可。您可以将文本转换为格式正确的 GitHub 问题。小型模型和合成数据的未来发展方向是什么?

我认为特定领域的合成数据将会变得越来越重要,它已经很重要了。例如,为数学生成合成数据,我认为这将真正有助于提高许多模型的推理能力。很多人都在这样做,例如 QIN 2.5 数学,每个人都试图重现一个。因此,我认为对于合成数据而言,尝试将其专门化到某些领域将非常重要。

然后对于小型模型,我认为通过微调对其进行专门化也至关重要,因为我认为许多公司只是在尝试使用这些大型模型,因为它们更好。但在某些任务中,我认为您已经可以使用小型模型获得不错的性能。因此,您无需支付更大的成本,只需让您的模型在您的任务中提高几个百分点即可。这不仅仅适用于文本。我认为这也适用于其他模式,如视觉和音频。

我认为您还应该注意设备端框架和应用程序。例如,我展示的应用程序 Pokestop、Ollama,所有这些框架都变得非常流行。我敢肯定,我们将在 2025 年获得更多此类框架。用户非常喜欢这一点。

也许对于其他方面,我还应该说一个大胆的预测。我认为在人工智能领域,我们刚刚开始进行微调,例如,试图使 BERT 在某些特定用例中发挥作用,并且为此而苦苦挣扎。然后我们有一些更大的模型。因此,我们只是转向提示工程来让模型解决我们的任务。

我认为我们将回到微调,因为我们意识到这些模型的成本非常高。最好只使用小型模型。我们尝试对其进行专门化。因此,我认为这是一个循环,我们将开始看到更多微调,而不仅仅是提示工程模型。这就是我的演讲。感谢您的关注。如果您有任何问题,我们现在可以解答。