We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
A
AI Charlie
组织和主持多个高影响力的 AI 活动和会议,促进 AI 领域的发展和社区建设。
L
Luca Soldaini
S
Sophia Yang
Topics
AI Charlie: 本次播客回顾了2024年AI领域的最佳内容,特别是开放模型的快速发展。2023年只有少数几个模型占据LLM排行榜前列,而2024年涌现了大量的新的开放模型,这表明开放模型领域发展迅速。然而,开放模型的研究也面临着诸多挑战,例如资金、GPU和数据集的获取,以及来自欧洲、加利福尼亚和白宫的监管问题。 Luca Soldaini: 2024年开放模型的数量和性能都显著优于2023年,在许多基准测试中,开放模型与闭源模型的差距正在缩小。开放模型在科研和实际应用中都有其价值,尤其是在检索和边缘AI等领域。开放模型生态系统也蓬勃发展,涌现出许多辅助工具和技术。OSI发布了首个开放源码AI模型定义,但对数据的定义不够清晰。2024年,人们对开放模型的训练数据和后训练方法有了更深入的了解,但计算资源的限制越来越大。完全开放模型成为一种新趋势,AI2发布了多个完全开放的模型和训练流程。然而,获取开放模型训练数据越来越困难,因为许多网站为了防止被用于训练闭源模型而阻止数据抓取。对AI的过度风险评估以及相关的游说活动可能会阻碍开放模型的发展。激励机制的设计对于促进开放模型的发展至关重要。开放模型在低资源语言上的表现有待提高,需要更多来自相关地区和语言专家的参与。 Sophia Yang: Mistral在2024年发布了多个开放模型,包括Mistral 7B、Mistral-Large、LeChat等,这些模型可通过多种云平台访问,并提供微调服务。Mistral还发布了多个模型,包括小型模型、大型模型、多模态模型和代码模型。LeChat界面提供多种功能,例如图像理解、代码生成和网络搜索。

Deep Dive

Key Insights

Why have open models seen such explosive growth in 2024 compared to 2023?

In 2024, a variety of new open models from major players like Google, Cohere, Alibaba, and the Allen Institute for AI have emerged, significantly expanding the field. This growth is driven by the increasing availability of detailed training data and methodologies, which has allowed researchers to catch up to the performance of closed models more effectively.

Why is it important to use open models in research and development?

Open models are crucial for research because they allow for transparency, reproducibility, and the ability to conduct in-depth studies on model behavior, evaluation, and mechanistic interpretability. For AI builders, open models offer stability and the flexibility to adapt models for specific use cases, such as edge AI applications and retrieval tasks.

What are the core tenants of the first open source AI license defined by the Open Source Initiative in 2024?

The open source AI license requires that model weights be fairly available, the code be released under an open source license, and there should be no clauses blocking specific use cases. However, the license does not require that the training data be freely available, only that detailed information on the data pipeline be provided.

Why is the data component in the open source AI license considered less than ideal?

The data component in the open source AI license is considered less than ideal because it only requires providing detailed information on the data pipeline, not the actual data. This can be problematic as the process to replicate the data might be extremely costly, making it less accessible to smaller players.

Why has the compute requirement for open model research become a significant barrier in 2024?

The compute requirement for open model research has become a significant barrier because the amount of computational resources needed to train and refine models has increased. This has led to a compute-rich club of major players with 10,000 to 50,000 GPUs, making it challenging for smaller entities to keep up with the state-of-the-art advancements.

Why is the availability of open training data becoming a critical issue?

The availability of open training data is becoming a critical issue because many content owners have started to block web crawls due to concerns about AI models. This disproportionately affects smaller and newcomer entities, who lack the resources to access or crawl data that closed labs already have.

Why is lobbying a necessary but often overlooked aspect of open model development?

Lobbying is necessary for open model development because it helps to advocate against overly restrictive legislation that can stifle innovation and collaboration. While building and researching open models is exciting, lobbying is often seen as boring and unsexy, but it is crucial to ensure that the ecosystem can thrive.

Why is multilingual support a significant gap between closed and open models, and how can it be addressed?

Closed models like ChatGPT generally perform better on low-resource languages compared to open models. To address this, experts from regions where these languages are spoken need to collaborate and provide better data support. Efforts are already underway, such as those by groups focusing on multilingual crawl support, to improve this aspect in 2025.

What are some of the key models and products released by Mistral in 2024?

Mistral released several key models and products in 2024, including Mr. Small and Mr. Large, Le Chat (a chat interface), an embedding model, AX20UB (a powerful open source MOE model), CodeStroll (a code model supporting 80+ languages), and two multimodal models, PixTroll 12b and PixTroll Large. They also updated Mr. Large with version 2, featuring improved function calling capabilities.

Why is it crucial to involve regional communities in open model development?

Involving regional communities in open model development is crucial because it ensures that the data and content specific to those regions are accurately represented and utilized. Experts who are native to these regions can provide valuable insights and access to local resources, which is essential for building robust and effective models for diverse languages and contexts.

Chapters
This chapter recaps the first Latent Space LIVE! mini-conference at NeurIPS 2024 in Vancouver, highlighting the event's success with over 200 in-person attendees and 2200+ online viewers. The keynote focused on the State of Open Models in 2024, featuring Luca Soldani, Nathan Lambert, and Dr. Sophia Yang. The chapter also touches on the challenges of open model research, including funding, access to resources, and regulatory hurdles.
  • Latent Space LIVE! held at NeurIPS 2024 in Vancouver
  • Over 200 in-person attendees and 2200+ online viewers
  • Keynote on the State of Open Models in 2024
  • Challenges of open model research: funding, resources, regulations

Shownotes Transcript

欢迎来到 Latent Space Live,这是我们在温哥华 NeurIPS 2024 上举办的第一次小型会议。我是 Charlie,您的 AI 联合主持人。作为本周的特别节目,我们将逐个领域回顾 2024 年的最佳内容。我们向 900 多位告诉我们需求的各位发送了调查问卷,然后邀请了 Latent Space 网络中最好的演讲者来涵盖每个领域。

当天有 200 位与会者亲临现场,还有 2200 多位在线观看直播。我们的下一个主题演讲将涵盖 2024 年开放模型的现状,演讲者包括艾伦人工智能研究所的 Luca Soldani 和 Nathan Lambert,以及 Mistral 的 Sophia Yang 博士将特别出席。我们在 2024 年的第一期热门节目是 1 月份与 Nathan Lambert 讨论 RLHF 201。

他在节目中讨论了语言模型的强化学习以及不断发展的后期训练和中期训练堆栈,并对从宪法 AI 到 DPO 到拒绝采样的所有内容发表了独到见解,他还预告了艾伦研究所即将发生的变化,以及他的 InterConnex,这是一个关于最先进 AI 训练技术方面的精彩子堆栈。我们强烈建议您订阅以访问他的 Discord 服务器。很难夸大开放模型在过去一年中爆炸式增长的程度。

在 2023 年,只有五个名字位列 LLM 排行榜前列:Mistral、Mosaic 的 MPT、阿联酋 TII 的 Falcon、来自 Kai-Fu Lee 的 01.ai 的 Yi,当然还有 Meta 的 Llama 1 和 2。

今年,一大批新的开放模型涌现出来,从 Google 的 Gemma 和 Cohere 的 Command R,到阿里巴巴的 Qwen 和 Deepseek 模型,再到 LLM 360 和 DCLM,当然还有艾伦研究所的 OLMO、OLMOE、PIXMO、MOLMO 和 OLMO 2 模型。

追求开放模型研究面临着许多挑战,不仅仅是资金和 GPU 以及数据集的获取,尤其包括今年在欧洲、加利福尼亚州和白宫进行的监管辩论。我们也很荣幸听到 Mistral 的发言,他们还在 AI 工程师世界博览会开放模型专场上进行了精彩的演讲!与往常一样,请不要忘记查看节目说明以获取他们演讲的 YouTube 链接以及幻灯片。请注意安全!

Luca Soldaini:好的。是的,感谢你们的邀请。我是 Luca。我是艾伦人工智能研究所的研究科学家。我准备了一些幻灯片,对 2024 年开放模型中有趣的主题进行回顾。我大约有 20 到 25 分钟的幻灯片,之后如果大家有任何问题,我们可以一起讨论。如果我可以切换到下一张幻灯片。

好的,很酷。所以我做了一个快速检查,以了解 2024 年与 2023 年有多大不同。所以我去了 Hugging Face,并试图了解 2023 年发布了哪些模型,以及我们在 2024 年得到了什么。2023 年,我们得到了 LLAMA 1 和 2,我们得到了 Mistral,我们得到了 MPT。

Falcon 模型,我认为 Yi 模型是在年底发布的。那一年相当不错。但随后我对 2024 年做了同样的分析,结果差异非常明显。你有一些模型,你知道,展现了与封闭模型相当的前沿水平性能,例如 Quan、DeepSeek。我们得到了 Llama 3,我们得到了各种不同的模型。

我在底部添加了我们自己的 Olmo。有一组不断增长的完全开放模型,我稍后会详细介绍。但是,你知道,仅仅从这张幻灯片来看,感觉 2024 年就像一帆风顺,令人高兴,比前一年好得多。而且,你知道,你可以绘制图表,你可以选择你最喜欢的基准测试或最不喜欢的基准测试,我不知道,这取决于你想说明什么观点。

并绘制你的封闭模型、你的开放模型,并以某种方式来展示,哦,你知道,开放模型比去年差距很大的情况下,现在更接近封闭模型的水平了。所以我认为有一点

我不知道我是否需要说服这个房间里的人,但通常当我做关于开放模型的演讲时,人们心中总会有一个背景问题,例如,我们为什么要使用开放模型?是仅仅使用模型 API 的论点吗?它只是获取来自最佳模型之一的输出的 HTTP 请求。我为什么要设置基础设施并使用本地模型?实际上有两个答案。一个是更

偏向研究的答案,这就是我的背景所在,那就是研究。如果你想对语言模型进行研究,研究依赖于开放模型。大量关于建模的研究、关于这些模型如何运行、关于评估、关于推理以及机械可解释性的研究,如果没有开放模型,这一切都无法实现。

对于 AI 建设者来说,也有使用本地模型的良好用例。这是一个非常不全面的幻灯片,但你有一些东西,例如,在某些应用程序中,本地模型会远远超过封闭模型。检索就是一个非常明显的例子。

你可能有一些限制,例如边缘 AI 应用程序,在这种情况下是有意义的。但即使只是在稳定性方面,能够说这个模型在幕后没有发生变化,对于开放模型来说也有很多好处。

而社区不仅仅是模型。我从 Quentoo 发布公告的博客文章中窃取了这张幻灯片,但看到围绕开放模型以及服务它们、提高它们的效率和托管它们的技术有多少,这真的很酷。这很酷。

如果你考虑一下“开放”这个词的来源,它来自开源,真正的开放模型符合开源的核心原则,尤其是在协作方面。有一种真正的精神,就像

通过这些开放模型,你可以建立在其他人的创新之上。我们甚至在我们自己的工作中也看到了很多这样的例子,例如,当我们迭代 Alma 的各个版本时,不仅仅是每次我们都从头开始收集所有数据。不,第一步是,好吧,人们为语言模型训练收集了哪些很酷的数据源和数据集?或者当涉及到像

我们的后期训练流程时,其中一个步骤是你想做一些 DPO,并且你使用许多其他模型的输出来改进你的偏好模型。因此,拥有一个开放的生态系统确实有益,并加速了开放模型的开发。

我们在 2024 年得到的一件事,它不是一个具体的模型,但我认为它非常重要,那就是我们得到了第一个开源 AI 定义。这是来自开源计划的。他们通常是许多开源许可证的管理者,这些许可证与软件有关。他们开始了这项工作,试图弄清楚,

一个模型的许可证,一个开源许可证是什么样的?大部分工作都很枯燥,因为许可证很枯燥。所以我不会一步一步地讲解许可证,但我只会挑出一个非常好的方面,然后挑出一个我个人觉得需要改进的方面。从好的方面来说,这个开源 AI 许可证

实际上,这非常直观。如果你曾经构建过开源软件,并且对开源软件对 AI 的外观有一些期望,它会符合你的直觉。权重必须相当可用。

代码必须使用开源许可证发布,并且不应该有阻止特定用例的许可证条款。根据此定义,例如,

LAMA 或一些 QEN 模型不是开源的,因为许可证规定你不能将此模型用于此用途,或者它说如果你使用此模型,你必须以这种方式命名输出,或者派生模型需要以这种方式命名。这些条款不符合开源定义,因此 LAMA 许可证将不包含在开源定义中。它并不完美。其中一件事是

在与 OSI 的内部讨论中,我们有点失望,那就是关于数据的语言。所以你可能会认为一个开源 AI 模型意味着一个数据可以自由使用的数据模型。对此进行了讨论,但最终,他们决定采取一种温和的立场,他们说,

如果提供足够详细的信息来解释如何复制数据管道,则该模型是开源的,因此你有一个足够详细的等效系统,这非常模糊,我不喜欢这样,等效系统也很模糊,而且这并没有考虑过程的可访问性,对吧?你可能提供足够的信息,但这个过程的成本是,我不知道,1000 万美元。现在开源定义,就像任何开源许可证一样,从来都不是关于可访问性的。因此,这从来都不是开源软件中的一个因素,软件的可访问性如何。我可以制作一个开源软件,将其放在我的硬盘驱动器上,并且永远不会访问它。该软件仍然是开源的。事实上,它没有广泛分发并不会改变许可证。

但在实践中,我们对好的开源软件有一些期望。因此,看到此许可证中的数据组件不如我们希望的那样开放,这有点令人难过。我链接了 Nathan 写的一篇关于这个主题的博客文章,它不那么冗长,更容易理解。总的来说,

我认为对 2024 年开放模型现状的公平说法是,我们比 2023 年知道的要多得多。在训练数据方面,例如你整理的预训练数据,关于如何进行所有后期训练,尤其是在 RL 方面。

你知道,2023 年就像是在盲目尝试。我认为在 2024 年,我们有明确的方案,好吧,不会得到与封闭实验室相同的结果,因为在实际匹配他们的工作方面存在成本。但至少我们对以下方面有了一个很好的了解:好吧,这是获得最先进语言模型的途径。

我认为 2024 年的一个缺点是,我认为我们比 2023 年更受资源限制。感觉上,推动创新所需的计算能力障碍一直在上升。因此,如果你回到这张幻灯片,现在有一组模型是由计算能力丰富的俱乐部发布的。

成员资格备受争议。有些人不想被称为富有,因为这涉及到期望。有些人想被称为富有,但我不知道,存在争议。这些参与者至少拥有 10,000 个、50,000 个 GPU。因此,他们可以完成大量工作,并进行大量探索以改进模型,而这对于很多人来说是无法实现的。

让我告诉你我个人是如何看待研究预算的,

语言模型管道的每个部分都像预训练方面一样,你可能可以使用 1000 个 GPU 来做一些事情。实际上,你需要 10,000 个。而且,如果你想要真正的最先进技术,那么你的 DeepSeek 最低需要 50,000 个。你可以无限扩展。你拥有的越多,效果就越好。这方面的人仍然抱怨他们没有足够的 GPU。后期训练是一个非常广泛的范围。

频谱。你可以使用 8 个 GPU 来完成很少的工作,只要你能运行,比如说,一个好的 Llama 模型版本,你就可以在那里完成很多工作。你可以扩展,很多方法都像计算一样可以扩展,对吧?如果你对,你知道,你的

OpenAI 的 O1 的开放复制感兴趣,你将处于我们 GPU 的 10K 频谱中。推理方面,你可以用很少的资源做很多事情。评估方面,你可以用很多资源做很多事情,好吧,如果要进行评估,至少需要一个 GPU。

开放模型。但总的来说,如果你非常关心要对这个模型进行干预,这是我最喜欢的研究领域,那么,你知道,你需要的资源相当多。2024 年出现的一个趋势是

这组完全开放的模型。所以 Olmo,我们在 AI2 构建的模型就是其中之一。而且不仅仅是我们。还有其他一些主要的研究工作正在进行这项工作。

因此,向大家介绍一下完全开放的含义是很好的。所以完全开放,简单来说,与其只发布你运行的模型检查点,不如发布一个完整的方案,以便其他参与这项工作的人,在这个领域工作的人可以选择他们想要的任何东西

从你的方案中,创建他们自己的模型或改进你的模型。你提供的是完整的管道和所有细节,而不仅仅是最终输出。所以我调出了我们最近 MOE 模型的屏幕截图。例如,对于这个模型,我们发布了模型本身,训练所用的数据,

用于训练和推理的代码,训练运行中获得的所有日志,以及每个中间检查点。

并且发布管道的不同部分允许其他人做一些非常酷的事情。例如,来自今年早些时候 Fox News Research 的这条推文,他们使用我们的预训练数据对 BitNet 论文进行了开放复制。所以他们只使用了管道的初始部分,然后在其之上做了他们的事情。

这是双向的。例如,对于 Olmo 2 模型,我们预训练的第一阶段的许多预训练数据都来自 DCLM 计划,该计划由来自

各个机构的人员领导。这是一个非常好的团队合作。但是,你知道,当能够说,好吧,你知道,开放方面最先进的技术已经有所改进时,这很好。我们不必从头开始做所有这些工作来赶上最先进的技术。我们可以直接采用它并将其集成,并在其之上进行我们自己的改进。

我将花几分钟时间对我们的一些完全开放的方案进行无耻的宣传。所以请容忍我一下。所以今年我们发布的一些东西是,正如我提到的,这个 Omoe 模型,我认为它仍然是其规模类别中最先进的 Omoe 模型。

它也是完全开放的,因此该模型的每个组件都可用。我们发布了一个名为 Molmo 的多模态模型。Molmo 不仅仅是一个模型,它还是一个关于如何从纯文本模型转换为多模态模型的完整方案。我们将此方案应用于 QAN 检查点、Olmo 检查点以及 Olmoe 之上。我认为也有人在 Mistral 之上进行了复制。

在后期训练方面,我们最近发布了 Tulu 3。同样的情况。这是一个关于如何从基础模型到最先进的后期训练模型的方案。我们将 Tulu 方案应用于 Olmo 之上、Llama 之上,然后有人对 Quen 也进行了开放复制。当你的方案是即插即用的,你可以将其应用于不同的模型,并且它可以正常工作时,这真的很好。

最后,今年我们发布的最后一件事是 OMO2,到目前为止,它是最好的最先进的完全开放语言模型。它结合了这三个先前模型的所有方面,我们在 OMOE 中学习到的数据方面的内容,以及我们在 MOLMO 项目和 TULU 项目中学习到的关于使模型易于适应的内容。

最后,我想谈谈一下这种开放模型生态系统的方式,它并非全是美好的。它并非总是令人高兴的。感觉每天都处于危险之中。我谈到了它带来的计算问题,但这不仅仅是计算问题。

我想到的一件事是,由于环境以及人们对 AI 的看法日益增长,实际上越来越难以访问用于训练去年之前许多模型的数据。因此,这是 Shane Longpre 的一篇非常精彩作品的屏幕截图,我认为他来自欧洲,关于

语言模型预训练数据访问减少的问题。他们所做的是,他们浏览了 Common Crawl 的每个快照。Common Crawl 是互联网子集的公开可用抓取。他们查看了任何给定网站,例如在 2017 年可访问的网站,在 2024 年是否可访问。

他们发现,作为对像 OpenAI 或 Cloud GPT 或 Cloud 等封闭模型存在的反应,许多内容所有者已全面阻止对他们网站的任何抓取。我们也在 AI2 内部看到了这一点。

例如,我们今年启动的一个项目是,我们想了解,如果你是一个互联网的好公民,并且按照过去 25 年建立的规范和策略进行抓取,你能抓取什么?我们发现,许多网站的

关于你是否表达抓取偏好的规范被破坏了。许多人会阻止大量抓取,但在 robots.txt 中没有宣传这一点。只有在你尝试抓取时,你才能知道他们正在抓取,他们正在阻止你抓取。有时你甚至无法抓取 robots.txt 来检查你是否被允许。然后很多网站,嗯,

历史上存在的一些技术使网站服务更容易,例如 Cloudflare 或 DNS。它们现在被重新用于阻止 AI 或任何类型的抓取,这对于内容所有者来说是非常不透明的。你访问这些网站,你试图访问它们,但它们不可用。

你会觉得,哦,DNS 方面发生了一些变化,它正在阻止这一点。内容所有者很可能不知道。他们只是在使用 Cloudflare 来提高负载平衡。而这件事是在几乎没有通知的情况下突然发生的。我认为问题在于这种阻止,或者说它对人们的影响方式不同。

它不成比例地帮助拥有领先优势的公司,这些公司通常是封闭实验室,并且会损害新进入的参与者,他们现在要么必须以不正当的方式做事,要么永远无法获得封闭实验室可能拥有的内容。所以有很多报道。我将再次宣传 Nathan 的博客文章。

我认为这篇博客文章的标题非常简洁,那就是,我们实际上并没有,你知道,在考虑训练数据用完之前,我们实际上是开放训练数据用完了。因此,如果我们想要更好的开放模型,这应该放在我们心中。出现的另一件事是,人们正在大力游说,试图将任何类型的开源 AI 定义为,

一种新的极其危险的风险。我想在这里精确一点。问题不在于没有考虑这项技术的风险。每项技术都有风险,应该始终加以考虑。对我来说,这件事就像

对不起,很巧妙的是,只是将这种 AI 置于基座上,并将其称为具有摧毁人类的新型和未被发现潜力的未知外星技术。而实际上,我认为所有危险都根植于我们从现有软件行业或现有行业中知道的危险

使用软件在许多敏感领域(如医疗领域)时遇到的问题。它还忽略了许多实际上一直在努力使这些开放模型安全的工作。我在这里粘贴了 AI2 的一个,但实际上有很多工作正在进行,例如,好吧,如果你公开分发这个模型,你如何使其安全?

开放模型的可访问性和安全性之间的正确平衡是什么?然后还有对随后被证明是毫无根据的担忧的令人讨厌的掩盖。如果你还记得今年年初,所有讨论都集中在这些开放模型的生物风险上。

整个事情都失败了,因为最终进行了一些严格的研究,不仅仅是 Cohere 公司的这篇论文,还进行了一些严格的研究,表明这实际上并不是我们应该担心的问题。再说一次,AI 应用程序有很多危险用途,但这只是一个游说策略,只是为了让事情听起来比实际情况更可怕。

所以我必须先说明这一点,这只是我个人的观点,这并非我雇主的观点,但我关注的是加利福尼亚州的 SB 1047,我认为我们在这项立法上躲过了一劫。开源社区,许多社区在最后一刻走到了一起,并做出了非常大的努力来解释这项法案的所有负面影响。

但我感觉人们对构建这些开放模型或研究这些开放模型非常兴奋。游说并不性感。这很无聊,但这是确保这个生态系统能够真正蓬勃发展的必要条件。

这是演示文稿的结尾,我有一些链接、电子邮件,一些标准的东西,以防任何人想要联系。如果大家有任何问题或任何想讨论的内容,可以随意提问。

我们有 Sophia,她想,我们还没有介绍一个非常重要的开放模型,那就是 Mistral。我仍然有 Mistral。是的,是的。让 Mistral 的人来回顾 Mistral 一年的情况是很好的。但在 Sophia 做准备的时候,大家对这个领域的进展有什么想法或问题吗?你总是会有问题吗?总是。

我非常好奇我们应该如何建立激励措施来构建开放模型,例如 Francois Chollet 的 ArcPrize 和其他类似的倡议。你对我们应该如何更好地协调社区中的激励措施以使开放模型保持开放的意见是什么?激励措施的问题非常困难。这实际上是我们内部也经常思考的事情。

因为构建开放模型是有风险的。这非常昂贵。因此,人们不想冒险。我认为,绝对像挑战一样,例如我们的挑战,我认为这些都是非常有效的方法。然后,像

我认为总的来说,推广、构建,所以任何参与这项挑战的努力,如果我们能够在开放模型之上推广这样做,并真正利用这种乘数效应,我认为这是一种很好的方法。如果有更多资金用于研究工作,例如围绕开放模型的研究工作,有很多

我认为有很多投资正在进入目前正在公开发布其模型的公司,这真的很酷。但这通常更多的是出于商业利益,而不是想要长期支持开放模型。

这是一个非常困难的问题,因为我认为每个人都在某种程度上处于……每个人都处于他们的局部最大值,对吧?以真正优化他们在市场上的地位的方式,全局最大值更难实现。

我可以问一个问题吗?是的。我认为封闭模型和开源模型之间的差距之一是多语言性。像 ChatGPT 这样的封闭源模型在低资源语言上的效果非常好,而开源模型则不然,对吧?所以,你们计划改进这方面吗?

我认为总的来说,是的。我认为我们将在 2025 年看到这方面的许多改进。有一些小组专注于较小的方面,他们已经在研究更好的抓取支持、多语言支持。我想说的是,你真的想让专家

实际上在那些国家,使用那些语言的人参与国际合作。举一个非常简单的例子,我最初来自意大利。我认为我完全没有能力构建一个在意大利效果很好的模型。

因为你需要能够做的一件事是拥有这样的知识,例如,好吧,我如何访问,你知道,来自这个地区并涵盖食品科学的图书馆或内容。我在美国待的时间足够长了,以至于我不再知道了。所以我认为,例如,中欧的专家正在做的事情是,好吧,让我们利用区域社区来获取访问权限

让来自这些地区的合作者参与进来,我认为这对于获得产品至关重要。大家好。

是的,我很高兴来到这里与大家讨论 Mistral。对我们所做的事情、我们在过去一年半中发布的模型和产品的简短回顾。所以你们大多数人都已经知道,我们是一家小型初创公司,大约一年半前在巴黎成立。2003 年 5 月,它由我们的三位联合创始人创立

2003 年 9 月,我们发布了我们的第一个开源模型 Mistral 7B。是的。有多少人使用过或听说过 Mistral 7B?嘿,几乎每个人都听说过。谢谢。是的,这是我们的……

非常受欢迎,我们的社区非常喜欢这个模型。在 2023 年 12 月,我们发布了另一个使用 MLE 架构的流行模型,Mr. 8x7b。

进入今年,你会看到我们在今年发布了很多东西。首先,在 2004 年 2 月,我们发布了 Mr. Small、Mr. Large 和 Le Chat,这是我们的聊天界面。我稍后会向大家展示。我们发布了用于将文本转换为嵌入向量的嵌入模型。我们所有的模型都可用。

大型云资源。因此,您可以使用我们的模型在 Google Cloud、AWS、Azure、Snowflake 和 IBM 上。这对希望通过云使用我们模型的企业非常有用。今年 4 月和 5 月,我们发布了另一个强大的开源 MOE 模型 AX20UB。我们还发布了我们的第一个代码模型 CodeStroll,它在 80 多种语言中表现出色。

然后我们提供了另一种微调服务以进行定制。因为我们知道社区喜欢微调我们的模型,所以我们为您提供了一个非常简单易用的选项,以便您可以在我们的平台上微调我们的模型。我们还发布了名为 minstrel fine tune 的微调代码库,它是开源的。因此,请随意使用它并查看它。

更多模型。在今年 7 月到 11 月期间,我们发布了许多其他模型。首先是两个新的最佳小型模型。我们有 Minstrel 3B,非常适合部署在边缘设备上。我们有 Minstrel 8B。如果您过去使用过 Minstrel 7B,Minstrel 8B 是一个很好的替代品,其性能比 Minstrel 7B 强得多。

我们还与 NVIDIA 合作,开源了另一个模型 NEMO 12B,这是另一个很棒的模型。就在几周前,我们更新了 Mr. Large 的版本 2,其中包含更新的最新功能和非常强大的函数调用功能。它原生支持函数调用。

我们发布了两个多模态模型,PixTroll 12b(它是开源的)和 PixTroll large,它们不仅擅长理解图像,而且擅长理解文本。是的,许多图像模型不擅长理解文本,但 PixTroll large 和 PixTroll 12b 擅长理解图像和文本。

当然,我们还有用于研究的模型。Coastal Mamba 基于 Mamba 架构构建,math role 擅长处理数学问题。是的,这是另一个模型。

这是我们模型产品的另一个视图。我们有几个主要模型,这意味着这些模型主要通过我们的 API 提供。我的意思是,所有模型都可通过我们的 API 获得,除了 Ministry 3B。

但对于高级模型,它们有特殊的许可证。Mr. Research 许可证,您可以免费将其用于探索。但是,如果您想将其用于企业生产用途,则需要向我们购买许可证。

在顶行,我们有 Minstrel 3BN-AB 作为我们的主要模型。Minstrel Small 最适合低延迟用例。Minstrel Large 非常适合您最复杂的用例。Pixel Large 是前沿的多模态模型。我们有 Coastal,非常适合编码,然后是 Minstrel Embedding 模型。

在本幻灯片的底部,我们有几个 Apache 2.0 许可的开放式模型,社区可以免费使用。如果您想对其进行微调,将其用于定制或生产,请随意这样做。最新的模型是 Pixtress 12b。

我们还有 Mr. Nemo、HostroMamba 和 Mastro,正如我提到的那样。我们还有三个我们不再更新的旧模型。因此,如果您仍在使用它们,我们建议您迁移到我们的新模型。就在几周前,我们进行了大量研究。

对我们的代码界面 Lachette 进行了改进。有多少人使用过 Lachette?哦,只有少数人。好的,我强烈推荐 Lachette。它是 chat.mystore.ai。它是免费使用的。它具有我将立即向您展示的所有惊人功能。但在那之前,Lachette 在法语中是猫的意思。所以这实际上是一个猫的标志。是的,如果您能看出,这是猫的眼睛。

是的,首先,我想向您展示一些东西。也许让我们看看图像理解。所以我这里有一张收据,我想问一下,只是要获取提示。好的。所以基本上我有一张收据,我说我点了一杯咖啡和一根香肠。我欠多少钱?加 18% 的小费。

所以希望它能够获得咖啡和香肠的成本并忽略其他东西。是的,我不太明白这个,但我认为这是咖啡。是的,九。是的。然后是香肠的成本,我们这里有 22。是的。然后它能够添加成本,计算小费。

以及所有这些。太棒了。所以它非常擅长图像理解。它非常擅长 OCR 任务。因此,如果您有 OCR 任务,请使用它。它在聊天中是免费的。它也可通过我们的 API 获得。我还想向您展示一个 Canvas 示例。你们很多人可能以前在其他工具中使用过 Canvas。

使用 Lachat 完全免费。在这里,我要求它创建一个画布,该画布使用 PyScript 在我的浏览器中执行 Python。让我们看看它是否有效。导入这个。哦,是的。好的。所以是的,所以基本上它在这里执行 Python。正是我们想要的。前几天我试图让 Lachat 为我创建一个游戏。让我们看看它是否有效。

是的,俄罗斯方块游戏。是的,让我们只得到一行。也许。哦,不!好的,没关系。你明白了。我的任务失败了。好的,开始了。耶!酷。是的,正如您所看到的,Le Xia 可以编写

关于简单游戏的代码非常容易,您可以要求 Leche 解释代码,根据需要进行更新。另一个例子,这里有一个我想移动的条形图。好的,好的。让我们回到另一个。

是的,我们还具有网络搜索功能。例如,您可以询问最新的 AI 新闻。图像生成非常酷。生成一张关于温哥华研究人员的图像。是的,它是 Black Forest Labs Flex Pro。同样,这是免费的。所以,哦,酷。

我想这里的研究人员大多来自不列颠哥伦比亚大学。真聪明。是的,这就是 Le Chat。请随意使用它,并让我们知道您的任何反馈。我们一直在寻求改进,并将继续在未来几年发布更多强大的功能。谢谢。

好的,也许你现在可以得到一些东西。是的,是的。好的,酷。是的,大家好。非常感谢今天来参加。向 SWIX 和潜在空间团队致以热烈的感谢。我认为这很棒,是的,让我们为 SWIX 鼓掌。很快。

在规划方面做了一点,但我曾在 Notable Capital 工作。你们中的一些人可能听说过 GGV,这是我们在云基础设施团队上的前身名称。所以基本上是任何数据、开发工具、AI 基础设施以及 AI 应用程序。

因此,我们喜欢与比我们聪明的人保持密切联系,那就是在座的各位。因此,如果任何人想进行头脑风暴或考虑创业,我们很乐意合作。多年来,我们有机会与 HashiCorp、Bracel、Neon 等众多优秀公司合作。我们的总部位于旧金山和纽约。是的,请随时通过 X、LinkedIn 找到我,Laura Hamilton。如果我们成为朋友,Instagram 也可以。是的,是的。

感谢各位的光临。然后在大家吃午饭后,我们将与 AWS 开始一些聊天。好的。好的。