We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
C
Chris Benson
D
Daniel Whitenack
Topics
Daniel Whitenack: 我认为DeepSeek R1以其成本效益和卓越性能,在AI领域引起了广泛关注。它与OpenAI等公司的大模型相媲美,但训练成本却大大降低,这无疑对整个行业产生了重大影响。我们有必要深入探讨其技术细节、安全隐患以及对未来AI发展趋势的影响。 Chris Benson: 我认为DeepSeek是一家值得关注的中国初创公司,它发布的大型生成模型在性能上可与OpenAI的最佳模型相媲美,但训练成本却低得多。这引发了人们对AI模型开发成本、数据安全以及地缘政治影响的广泛讨论。我们应该深入分析DeepSeek的技术细节、安全风险以及对整个AI生态系统的潜在影响。

Deep Dive

Shownotes Transcript

围绕DeepSeek最新的模型DeepSeek R1,存在着疯狂的炒作和许多困惑。DeepSeek(他们版本的类似ChatGPT的应用程序)提供的产品人气激增。然而,与中国的联系引发了隐私和地缘政治方面的担忧。在本集中,Chris和Daniel将深入探讨该模型、隐私隐患、安全运行DeepSeek模型以及这对2025年开放模型的意义。 加入讨论Changelog++会员可节省本集5分钟时间,因为他们去除了广告。立即加入!赞助商:Notion – Notion是一个任何团队都可以编写、计划、组织和重新发现游戏乐趣的地方。这是一个不仅为取得进展,也为获得灵感而设计的办公空间。Notion适用于所有人——无论您是财富500强公司还是自由职业设计师,是初创公司还是在兼顾课程和俱乐部的学生。

Daniel关于DeepSeek的博客文章 Hugging Face上的DeepSeek R1 DeepSeek

<raw_text>0 欢迎收听Practical AI播客,该播客使人工智能对所有人来说都实用、高效且易于访问。如果您喜欢这个节目,您会喜欢The Change Log。周一发布新闻,周三进行深入的技术访谈,周五则是一个适合您周末欣赏的精彩脱口秀节目。您可以在任何收听播客的地方搜索The Change Log来找到我们。

感谢我们在Fly.io的合作伙伴。在五分钟或更短的时间内启动您的AI应用程序。在Fly.io上了解详情。♪

欢迎收听2025年第一集完全互联的Practical AI播客。在这个完全互联的Practical AI播客系列中,我和Chris会让您充分了解AI领域发生的一切,并希望能分享一些学习资源,帮助您提升机器学习和AI技能。

我是Daniel Wightnack。我是PredictionGuard的首席执行官,一如既往地与我的联合主持人Chris Benson一起主持节目,他是洛克希德·马丁公司的一名首席AI研究工程师。Chris,你好吗?很好,Daniel。AI领域发生了很多有趣的事情,我喜欢这些对话。

我们进行这些完全互联的深入探讨,探讨您我个人感兴趣的事情,这就是我们选择它们的方式。而且有很多令人兴奋的事情即将到来。在这些剧集中,我们更容易……

自由发挥,谈论一些事情。但对于那些长期以来一直在播客订阅源上看到我们标志的听众来说,仅供参考,即将对标志进行更改。但无需更换我们的订阅源或其他任何内容。这应该没问题。我们仍在与Change Log进行伟大的合作。他们对他们的节目和阵容做了一些改变。

以不同的方式发布它们。如果您想了解相关信息,他们有一个关于此的节目,但我们仍然会继续努力,并对可能非常需要的更新感到兴奋。你知道,我不知道。我想已经有六年半或更长时间了吧,对吧,Chris?是的,已经六年半了。六年半内我们可以改变。我不知道。是的,我的意思是,六年半的GPU时间是很长一段时间。是的,那很贵。是的。

所以是的,仅供参考,长期听众,请注意。您可能会在不久的将来滚动浏览您的播客应用程序,寻找新的标志。但是,是的,我认为这比Deep Seek更大的新闻。但我猜我们可以把大部分剧集都用来讲述我们本周的故事。

几周,谁知道有多久,一直是DeepSeek R1,我知道这是……你知道,当我们说的时候,我正在想,说到GPU时间,在这种情况下,也许GPU时间要少得多,是的,少得多,也许数量不明确……

没错。说得对。他们只谈到了最终成功的运行在其中的花费。所以是的,我想我们对那些不太熟悉它的人来说有点跑题了。是的。所以对于那些可能正在收听这集节目的许多人来说,他们都遇到过DeepSeek.com。

但对于那些什么都没见过的人来说,也许你一直在某个地方躲着。Chris,我们正在谈论DeepSeek是什么?啊,我们正在谈论一家中国初创公司,它发布了一个大型生成模型,一个LLM,我想,我会在这里略过一些内容,因为我们会深入探讨细节。但它是……

性能非常高。它与OpenAI发布的最佳模型相当。但真正震撼每个人的世界的是,它的训练成本要低得多,至少我们知道的部分是这样,我们稍后会深入探讨细节。我们知道一些事情,也有一些事情我们不知道。但它似乎比迄今为止世界各地所有竞争模型的成本都要低得多。因此,简而言之,AI世界,我想关心这些事情的AI世界之外的每个人……

在这个关于影响的巨大辩论和对话中。这是一件大事吗?不是那么大的事。为什么这是一件大事?你知道,它被夸大了?当然,Daniel和我现在就要深入探讨所有这些。这是一个目标丰富的环境,就像我们在国防领域所说的那样。他们在我们使用该模型时是否在监视我们?没错。你能、应该、可能……

以各种不同的方式运行模型。是的。围绕这一点有很多困惑,Chris,这是一件有趣的事情,希望,希望在您收听完这个播客后,您不会更加困惑。我们不能保证这一点,但希望,希望如此。是的,这很有趣。所以我认为围绕这个故事之一,有很多叙事我们可以在这里讨论,有很多话要说,是……

其中一个叙事是关于一些中国初创公司如何以更低的预算或模型构建成本构建了如此优秀的模型,并且基本上与……

OpenAI和其他公司的模型达到同等水平。特别是,人们将其与O1模型进行了比较,如果您还记得的话,我们在节目中讨论过这个模型。这是OpenAI的某种“思考”模型。因此,当该模型生成输出时,您输入提示,

LLM会生成文本输出。该文本的开头部分是某种“思考”内容,这意味着他们正在训练该模型来吐出解决更深层次问题或对输入提示进行推理的逻辑,然后才能给出最终答案。如果您使用的是chat GPT界面,您可以在不同的颜色或灰显中看到这一点。

如果您使用的是API,我认为他们不会在API中发送回该内容。您仍然需要为此付费,但我认为他们不会发送回该内容。这是一种类似的推理模型。所以DeepSeek R1。在这种推理中,这种非常……

例如,Open AI的旗舰模型,在相同类型的任务中。DeepSeek正在获得这种我们可以称之为“同等水平”的东西。现在,不同的基准测试存在,等等。每个模型都有其自身的偏差和不同的行为。但是,是的,新闻中围绕此的第一个叙事是,哇,这突然出现了。这是一家新公司。它只是一家初创公司。他们以低廉的成本做到了这一点,并且……

因此,他们发布了大约500万、550万、600万,在这个范围内的数字,用于该模型的最终训练。与训练OpenAI的01所需的成本相比,这简直是九牛一毛。

所以,是的,这个第一个叙事,你对此有什么看法,Chris?好吧,我认为我们还需要更多信息。正如你提到的,他们发布了最终数字,但我看到很多人都在发帖讨论,你知道,需要什么?他们进行了哪些不成功的运行、实验性运行等等。还有很多事情我们还不知道。

关于这一点。所以他们真的精心挑选了他们选择发布的内容。但是,我的意思是,你用过它吗,Chris?哦,实际上,由于我的工作,我倾向于避免直接使用一些中国技术,但我确实把它加载到了我的个人系统上。我现在已经安装了。

至少在过去一个小时里,他们一直在努力登录,我已经登录了。但是,是的,我已经安装了。我知道我昨天含糊地给你发了一张我使用它的屏幕截图的短信,我当时只是……

只是在玩它。我看到其他人也这么做了。所以我问它,1989年天安门广场发生了什么?它回答说,对不起,我无法回答这个问题。我是一个旨在提供有帮助且无害的回应的AI助手,我认为这正是我所期望的,老实说。

但这只是对AI地缘政治的提醒,你知道,这绝对很重要,那就是这是一个中国政府批准的数据集。所以,我认为这一点很重要。首先,DeepSeek是一个由真正优秀的人才组成的团队,他们实际上不是一周前才出现的。是的。他们实际上已经做了非常棒的开源和……

科学工作,你知道,已经有一段时间了。所以DeepSeek团队已经存在了,之前也有DeepSeek模型。他们已经在Hugging Face上发布了这些模型,公平地说,我们的美国同行OpenAI并没有在Hugging Face上公开发布他们的模型,这样你就可以运行它们、进行研究、分析它们并生成输出。所以……

这也许是一个需要强调的点。他们在某种意义上是开放的,但我认为围绕这个概念存在一些困惑,即这个非常小的团队,比如……

在他们的卧室里,有两三个人用他们的游戏电脑里的游戏显卡,他们训练了这个击败OpenAI的模型。这就是正在传播的叙事。实际上,他们可以使用数万个GPU。我看到Hugging Face的Philip Schmidt的一篇帖子说,

现在,我不知道他从哪里获得某些信息的全部细节,所以请根据实际情况看待这一点。但他所说的一件事,与你Chris类似,是大约500万到600万美元的数字。这大概只是最终的基础模型。没有强化学习。不包括较小的运行。不包括数据生成,这是关键部分。所以我们稍后会谈到这个模型。但实际上是生成……

该模型的提示是一个重要的部分。而且,呃……

正如我提到的,强化学习训练。所以成本肯定更高。投入了更多的资源。这并不是一家刚刚出现在某人卧室里的公司。所以其中一些叙事是,你知道,就公司规模而言,这是真的。他们显然是在约束条件下工作的,他们在约束条件下做了一件非常令人印象深刻的事情。

他们在工作的环境中面临计算约束。他们在Hugging Face上公开发布了该模型。

所以为此向他们表示祝贺。我认为其他一些叙事点有点模糊。所以我很好奇你对这方面的看法。是的。所以祝贺他们在Hugging Face上开源。而且,你知道,你和我过去十年……

一年半以来一直在预测,你知道,开源最终会在某个时刻……尤其是在事情有点停滞不前的时候,开源最终会……最终会产生影响。所以,我认为这不是一个何时以及是否的问题,而是一个……

所以话虽如此,看到这个特定的小组将其放在Hugging Face上,你认为他们为什么拒绝包含所有关于他们如何以这种成本实现目标的训练信息?你认为可能是——我意识到我问的是一个推测性问题。这很有趣。我的意思是,我……

我认为需要说明的一点是,这对于发布这些模型的任何人来说都不算什么异常情况,例如Meta的Llama 3.1,我的意思是……

你会看到这些模型生产商会制作所谓的技术论文。但是这些技术论文并没有分享细节,理论上你无法复制它,对吧?他们没有透露关于数据的细节。即使他们发布了这些模型中的一个,他们也没有透露关于他们流程的细节。所以这……

这并不奇怪,事情就是这样发生的。所以,实际上,我的一部分想法是,好吧,他们为什么要这样做?这将有点违背……

我认为,他们对开放科学的哲学承诺将是促使他们这样做的原因,某些方面确实如此。例如,艾伦人工智能研究所及其Olmo模型等,已经非常有意识地努力在数据流程、模型资产等方面做到真正开放,

这绝对是一个例外,证明了这个规则。那是正确的表达吗?是的,我知道你的意思。是的,类似这样的说法。你明白我的意思。但人们承认,在更大的领域中,发表的技术论文既是营销论文,也是……你知道,既是成就论文,也是……我的意思是,某些元素是值得了解的。显然,您可以知道模型架构,对吧?

你正在运行它,它是开放的。所以你可以从中学习一些东西。我确实认为这代表着一种对系统冲击,你和我一直在说,我们基本上已经与开放模型和封闭前沿模型达到同等水平,就所有意图和目的而言。对于大多数企业用例来说,我们已经达到同等水平了。但在公众眼中,

我们绝对没有达到同等水平。在某种程度上,就某些类型的模型而言,我们确实没有达到同等水平。我认为这对公众的认知来说绝对是一个冲击,那就是存在模型选择性。将会有各种不同地方的这些模型激增,这自然会引发关于这些模型来自哪里以及我是否可以信任它们的讨论,以及……

它的行为与我习惯使用的有何不同?我可以安全地运行它吗?所有这些事情都突然出现,并立即引起了很多关注。我同意。

AI从业者们,大家好!Adam来自Changelog。我想告诉你们我有多喜欢Notion。我知道Daniel和Chris也喜欢Notion,因为我们使用Notion来组织所有事情。在changelog.fm和cpu.fm的幕后,我们与许多外部优秀的团队合作。我们创建仪表板、工作流程和操作系统,基本上是为了与我们领域之外和我们领域之外的其他人良好地合作。

最酷的是,Notion非常灵活,我们可以用Notion做任何事情。我最喜欢Notion的一点是他们的Notion AI。我可以搜索我所有的笔记、所有文档、获取上下文、获取摘要。它完全由AI驱动,完全在我的Notion内部,由内部的所有内容驱动。

在我的Notion中,所以我可以与外部团队、内部团队合作,我可以构建工作流程,所有这些AI都真正帮助我的团队、我的工具、我的知识库能够发挥最佳作用。

与其他工具不同,您必须从一件事情跳到下一件事情,再到下一件事情。它并没有无缝集成。Notion无缝集成,无限灵活,而且美观。它易于使用移动桌面网络可共享网络可共享。我的意思是,你想到了什么,Notion都能做到。

完全集成的Notion AI帮助我们更快地工作、更好地写作、更宏伟地思考、更高效地完成任务。通常需要我们数小时才能完成的事情,现在只需要几分钟,甚至在某些情况下只需要几秒钟。是的,与财富500强公司相比,我们是一个小型组织,但它们被超过一半的财富500强公司使用。使用Notion的团队发送的电子邮件更少,取消的会议更多,节省了搜索工作的时间。

他们减少了在工具上的支出,这有助于每个人保持在同一页面上。访问notion.com/practical AI,免费试用Notion。所有字母都小写,notion.com/practical AI,今天就试用功能强大的、易于使用的Notion AI。当然,当您使用我们的链接时,您就是在支持这个节目。我们喜欢这样。Notion.com/practical AI。所以……

好吧,Chris,我确实想了解我们所知道的一些技术细节,例如该模型是什么以及该模型的版本。但在此之前,也许解决最主要的问题会很有用,我想,那就是这个模型的安全元素或与之相关的网络安全隐私问题。对此有很多讨论。

围绕地缘政治因素,哦,你知道,美国领先吗?这说明了在该领域的优势吗?这是一件事。另一件事是,我的公司以前可能在将不应该粘贴的内容粘贴到chat GPT中时遇到过问题,例如,你知道,无论是什么,客户详细信息或知识产权等等,对吧?

这种影子AI的使用已经在公司中发生了,对吧?人们担心他们的员工正在将内容粘贴到chat GPT中。好吧,现在这个领域出现了一个新的参与者。人们正在使用它,因为它是一个令人惊叹的新AI应用程序。事实证明,它是由一家名为……

不同的公司运行的,并且数据将被发送到不同的位置,并存储在中国服务器上。所以有这个因素。所以我们需要分析一下。但在我看来,这也导致了另一种困惑……

该模型的“安全性”是DeepSeek安全的。我认为这是一种……我们必须澄清当我们提出这个问题时我们的意思是什么,因为我不知道你……我不知道你看到的东西,Chris。有很多……

在这方面没有帮助的东西。是的,很多恐惧、不确定性和怀疑。其中一些可能是合理的。其中一些可能不是,可能很多都不是。对我来说,更可怕的事情不是模型本身。而是围绕模型的基础设施,它存储在哪里,该公司的核心数据科学家之外的哪些外部实体可以访问它。

我认为这就是……这就是很多担忧所在。它是……如果您从Hugging Face下载了它,并且正在您的服务器上运行它,这并不是说……呃,当然,安全性的每个方面都得到了满足,但至少……呃,您已经消除了安全等式中的一些潜在问题。所以,你知道,我……我绝对……在我的个人手机上,我有这个应用程序,

这对我来说是不寻常的,但知道我们要做这件事,并且想玩一下。但我对此还非常谨慎。是的。是的。所以你指出了非常重要的一点,Chris。实际上,我写了一篇关于这方面的博客文章,我会在这一集节目的节目说明中添加链接。如果您有兴趣,您可以查看一下,如果您听到……

您的管理层或公司中的其他人夸大了对DeepSeek的担忧,那么这可能是一个很好的资源,你知道,也许您想在一个安全的环境中使用它,这可能是一个您可以向他们指出的好工具。但总而言之,我想强调的主要一点是你刚才描述的这个元素。所以实际上有两种方法可以访问此模型。所以有两种方法可以使用DeepSeek R1,嗯……

一种是通过DeepSeek公司提供的产品,这是一个您可以访问的软件产品,他们负责托管。这将与许多其他软件产品类似,例如OpenAI托管的ChatGPT。这是他们的产品,其中嵌入了模型界面。

但它与您使用Airbnb类似,对吧?您访问Airbnb,将您的个人信息输入Airbnb。他们有一些他们希望遵守的服务条款。但您无法了解Airbnb或ChatGPT或此DeepSeek AI产品的内部运作情况,对吧?

所以在这种情况下,不安全的并不是模型,引号中的“不安全”是指您将数据输入到其中。它是围绕该模型构建的产品。从服务条款模型中可以很清楚地看出……

DeepSeek发布的内容表明,他们将收集您的所有……好吧,我不应该那样笼统地说。他们确切地说他们会从你那里得到什么,但他们会保存你很多个人数据和信息。他们将将其用于未来的模型训练。并且它存储在……你知道,在中国服务器上。

所以这就是条款,这就是明确的服务条款。如果您同意,那就是产品的用法,对吧?不是模型。你提到这一点很有趣,因为就像我使用的大多数软件产品一样,我不一定会像我应该的那样仔细阅读所有服务条款。

而且,你知道,因为我们总是……我的意思是,没有人这样做。没有人这样做。但我必须承认,当我下载DeepSeaCap时,它会在注册时显示出来,我确实这样做了,我读后感到很震惊。我已经决定要这么做了。我使用的是所有个人资料,与工作无关的东西,诸如此类。但即便如此,我不仅吞下了……

下载应用程序,但这让我真正认真地考虑我会非常仔细地将哪些内容输入到界面中。就像你说的,绕过产品而不是模型。是的。是的。所以这是一种访问模式,对吧?通过DeepSeek访问,无论是他们的移动应用程序还是我认为是chat.deepseek.com的聊天界面,再次类似于chat GPT。

实际上,您应该对chat GPT或anthropic抱有与对DeepSeek相同的相关担忧,因为您真的想知道您的数据将如何使用以及围绕此的隐私考虑是什么。这增加了一个新的因素,那就是一个处理该数据的外国实体。对。所以这是一个不同的因素。但这并不是模型。这是产品。

该模型已再次在Hugging Face上发布,当我们在这里谈论模型时,对于那些可能一段时间没有收听播客的人来说,当我们谈论模型时,它有两个方面。一个是运行该模型所需的代码,以便处理您的输入并生成输出。

然后还有一组参数,一组加载到该代码中的数据,这些数据参数化该代码,以便它可以运行。这两个方面都已发布。实际上,实际上,运行DeepSeek所需的代码……我现在要在这里进行澄清。所以运行某些DeepSeek版本所需的代码甚至不是DeepSeek的代码。至少如果您使用的是Hugging Face生态系统,它是一个……

它是一个名为Transformers的软件包,它是开源的。您可以在GitHub上查看每一行代码。它由世界各地数千人维护。它是完全开放和透明的。因此,代码元素并不是说……正在查看和开发。并且模型在其中实现。

数据元素可在Hugging Face上获得,并且在您将其下载到您的环境中时可能存在其自身的问题,我们稍后可以讨论。但这两个方面都是开放的。您可以下载它们,甚至可以在……例如,如果我启动一个虚拟机,对吧?

或某些计算机,我可以下载这些资产,切断该计算机与互联网的连接,无论是出站还是入站,对吧?并在完全隔离的环境中运行该模型,这样就不会有数据发送到DeepSeek,也不会发送到中国。他们没有发送和连接到该计算机,对吧?所以为了让它非常清楚,

这就是模型。当我们说模型时,这就是我们的意思。我们指的不是产品。并且可以再次在安全的环境中运行,考虑到这一点。现在,我应该在这里说明一下。我相信在录制本节目的时间。

Transformers库尚未更新以支持完整的DeepSeek R1架构,这在发布新模型时非常典型。有时它并不总是受上游Transformers支持。嗯哼。

这意味着您必须加载远程第三方代码才能运行完整模型,这对于所有版本的模型并非如此。我希望这种情况会在……我不知道,也许在我说话的时候它正在发生变化。它会很快发生,比如几天、几周,无论如何。这将被合并到上游。然后这种担忧就会消失。

所以为了跟进这个想法,鉴于你刚才所说的话,如果说你在Transformers基础设施上运行它,并且确实切断了它的入站和出站网络连接,只是为了消除所有这些无关的担忧,你会……

你会对在安全至关重要的场景中运行它有任何保留意见吗?是的,所以这消除了这种“回家”的情况,我的数据将发送到中国。是的。围绕远程代码执行或我的计算机上的某些内容的漏洞,这些类型的……

是的。

这些大部分都是通过使用正确的模型格式来解决的,DeepSeq正在这样做。它被称为安全张量。如果您想了解它,可以查看一下。所以我对此没有任何保留意见。但是,这提出了一个次要问题,这也是一个令人困惑的点。我很高兴你提到了它。次要问题是,好吧,如果我运行它,它不会“回家”。如果我以这种安全的方式运行它,我的数据不会发送到DeepSeek或任何外国实体。

还有其他与这种“回家”隐私问题无关的担忧吗?我认为你之前提到过潜在的偏差。是的,以及原始训练集。在模型中,对吧?所以你提到了这个例子,询问关于天安门广场的问题。实际上……

我认为,因为我们也问过类似的问题。我不知道这在录制时是否已在应用程序中修复,但最初当你在这个DeepSeek产品中,也就是实际的应用程序中提出这个问题时,它会打印出完整的答案。

就像它实际上会回答发生了什么,然后它会全部崩溃,并给你一个罐装的,比如,“对不起,我无法回答这个问题”。所以基于此,我会知道或假设你将下载并在安全环境中运行的实际模型,或者,你知道,在你的笔记本电脑上以及这些本地托管工具中,该模型在响应方面没有偏差。该模型本身没有偏差。

你可以让它回答关于天安门广场的问题。这与双子座试图在其图像输出中创造多样性并生成一些非常有趣的东西时类似的产品决策。或者ChatGPT或任何人在你发送提示时所做的事情,他们会将内容注入到该提示中。他们进行后处理。这是一个产品,对吧?你无法看到任何这些内容。

因此,他们在那里做一些明显的产品事情来引入人为偏差。现在,我确实认为在某种程度上,在对齐、微调过程中,DeepSeek,

有他们自己关于如何对齐该模型的愿景,这可能没有任何恶意或奇怪的政治偏见。这可能只是他们如何选择使该模型产生偏差的选择。在其他方面,它可能受某些因素驱动。我不知道。

但是该模型将具有其自身的偏见行为。我认为在许多地方已经显示出的另一件事是Secure对此进行了一项研究,并且

这是一个对提示注入攻击比许多其他最先进模型更敏感的模型,这会在应用程序层产生另一种类型的漏洞。所以你已经解决了模型托管安全问题,但所有这些都说明,这并不意味着在实际使用模型或集成层时,你不应该仍然提出相关问题,也就是说,

如果人们感兴趣的话,我在博客文章中也强调了一些这些内容。朋友们,人工智能正在改变我们开展业务的方式,但我们需要的人工智能解决方案不仅要有雄心壮志,而且要实用且适应性强。这就是Domo的人工智能和数据产品平台发挥作用的地方。它是为当今人工智能领域的挑战而构建的。

使用Domo,你和你的团队可以将人工智能和数据转化为创新的用途,从而产生可衡量的影响。虽然许多公司专注于近端应用或单模型解决方案,但Domo的一体化平台更加强大,具有值得信赖的人工智能结果,而无需彻底检修你的整个数据基础设施,安全的人工智能代理可以连接、准备和自动化你的工作流程,

帮助你和你的团队轻松地获得见解、接收警报并采取行动,方法是通过根据你的角色量身定制的引导式应用程序以及选择要使用的人工智能模型的灵活性。因此,Domo超越了生产力。它旨在改变你的流程,帮助你做出更明智、更快速的决策,从而推动真正的增长。这一切都由Domo的信任、灵活性和多年来在数据和人工智能创新方面的专业知识提供支持。当然,最好的公司都依赖Domo来做出更明智的决策,并且

了解Domo如何释放数据的全部潜力。访问ai.domo.com了解更多信息。网址是ai.domo.com。所以,Chris,围绕这一点,我们总是在进行对话时喜欢做的事情还有另一个方面。

我们对任何特定模型的更深入讨论,这就是它的独特技术或架构元素是什么?他们发布了哪些类型的版本?当人们看到DeepSeq R1蒸馏Quinn 32B时,这实际上可能会让他们感到非常困惑,对吧?那里有很多词可能没有意义。

Jay Almar,我们在播客中非常喜欢他,并且他也在播客中出现过,他运营这个,多年来一直在发布许多关于插图转换器和其他内容的精彩博客文章。作为你可能想从本集中学到的学习资源,他发布了一篇关于DeepSeek R1的插图文章。

文章,其中介绍了一些细节。Chris,这里有趣的是,我不知道你是否看过了这些内容,但他们进行微调的总体情况与我认为许多人一段时间以来一直在进行微调的方式非常相似。

我想我想在此提出的其中一件事是,如果我错了请纠正我,它基于Llama模型之一,对吧?好吧,DeepSeek架构已经存在一段时间了,并且是一个特定的架构。它类似于Llama架构,因为它也涉及层层叠叠的

转换器。对。就DeepSeek R1的确切架构而言,它确实包含模型中的专家混合层。因此,架构中包含层层叠叠的转换器块。然后是这些专家混合块,你可能会看到人们将其称为激活层或参数。这些专家混合层并不总是存在。

你不会每次运行模型时都通过该模型层的全部元素处理输入,这会为推理和训练带来一些效率。

但是是的,它是一个类似的设置,有一些细微的差别,这些细微的差别也是我们前面提到的原因,至少目前,在我们录制这段内容时,你可能需要导入一些第三方代码来支持上游转换器中的模型,这很可能会很快改变。

但这会如何影响微调呢?就DeepSeek的处理方式与Llama的处理方式相比,是否存在差异?我看到很多相似之处,我知道Sam Altman发表了一条评论,我没有直接引用他的话,但意思大致是,一旦你知道其他人已经做过你正在基于的事情,那么做起来就容易多了,这是一种对DeepSeek所做工作的最小化,并且

我很好奇,你知道,这如何影响微调?我的意思是,总的来说,就像我说的那样,总体的过程。当我提到总体过程时,这通常是一种对非常原始数据的预训练步骤,该步骤是完全无监督的。

使用监督的微调步骤,可能还有一个额外的微调步骤,这是一种偏好微调,这种训练方式的总体情况在这里似乎也是正确的,这就像他们进行训练的总体情况一样,现在有一些独特的元素,因为他们创建了这个DeepSeek R10模型,并且

它是一种,他们使用这种中间推理模型来实际帮助生成一些用于监督微调步骤的数据。所以这就是我们对话中最初讨论的500万这个数字可能对应于最终或最终训练步骤之一,但不一定是数据生成。他们使用了中间模型,并且

他们的意图不是发布。就通用模型而言,它的性能并不出色,但它可能在生成长链思维示例(如这些推理示例)以添加到监督微调的训练数据方面表现良好,这使你能够增强微调数据,使用更少的人力资源来创建该微调。所以

我忘记了确切的数字,但Meta在使用人工数据标记器进行数据整理方面确实花费了大量资金来创建Llama模型的数据集,并且可能仍在这样做。在这种情况下,至少其中一些数据是这个中间模型生成的合成数据。所以这是该过程的一个有趣的步骤。

也许,你知道,这可能与一些预算和效率方面的考虑因素有关。当然。也许这就是,你知道,完全忽略这一点的部分原因是,这对于他们来说不一定是直接成本,或者至少不像最初制造时那样。是的,是的。所以有这个DeepSeek R1模型,它再次是……

该架构与我们过去看到的架构并没有根本的不同。在训练过程中做了一些有创意的事情,这两者都

很大一部分,假设它是合成数据或生成数据的重要组成部分。他们还使用某种自动化流程和基于模型的流程来过滤和整理生成的数据,以实际过滤掉所有候选示例中的好示例。在数据生成方面有一些非常有创意的事情,但其他阶段的训练并非

并非我们对其他模型发布不熟悉的训练阶段。DeepSeq已经发布了许多模型版本。所以有DeepSeek R1,这是一种旗舰产品,大约有7000亿个参数,或者类似的数字。它非常大。

至少在全精度下,你需要许多GPU才能运行它,我认为Hugging Face的Philip说,他的说法是,他的说法是16个80GB的GPU,比如16个H100,是的,为了让你了解情况,我认为一个H100如果一直处于开启状态,在

按需定价的云中,每月将花费你大约6万到8万美元,或者类似的数字。所以你需要16个这样的GPU来运行模型,以全精度运行完整的模型,至少是NVIDIA GPU。

然后他们发布了该模型的其他变体。完整的模型是专家混合模型,其中包含某种外部或第三方代码添加到其中。他们还发布了该模型的蒸馏版本。所以我们稍后可以讨论这个问题,但只想明确说明主要模型是什么样的。这些

这些模型的蒸馏版本,如果你去Hugging Face,你实际上可以查看DeepSeek的DeepSeek R1集合。你会看到的是

是一堆不同的DeepSeek模型,这通常也是人们感到困惑的一点。这些东西都意味着什么?所以我们有DeepSeek R1。我们有蒸馏Llama 70B、蒸馏Quinn 32B、蒸馏Llama 8B等等。对于人们来说,理解这些非常重要。所以,嗯,

这些模型被称为密集模型。因此,它们没有专家混合元素。它们始终运行所有参数,并且它们是蒸馏模型。所以DeepSeek所做的是,他们采用了他们的旗舰DeepSeek R1。他们创建了他们的旗舰模型,并且

然后他们使用知识蒸馏过程来创建该模型的较小版本,这些版本以以下方式利用大型模型的强大功能。所以我们之前在节目中讨论过这个问题,特别是我们与Noose Research一起做了一期节目。他们对此进行了很多讨论。如果你好奇,可以去看看。

但你基本上使用大型模型来生成大量示例输出。然后,你使用由大型模型生成的这些输入和输出,然后使用非常高质量的数据来训练较小的模型,这会将较小模型的性能提升到超出你仅通过从头开始训练较小模型所能获得的水平。所以当它说DeepSeq R1蒸馏LAMA 70B时,

它是LAMA 70B的蒸馏版本,它使用DeepSeq R1为微调过程生成合成数据,这很棒,因为他们有从15亿到700亿参数的该模型版本。

这很棒,因为实际上,你知道,特别是较小的模型,你可以在你的笔记本电脑上运行它。当然,大约80亿到320亿参数的最佳模型,这些模型可以使用一张卡或几张卡运行。因此,这使得这些模型更容易访问。当然,人们已经通过各种其他优化(如GGUF和其他可以在你的MacBook和

处理器上运行的优化)从那里扩散开来。所以为了阐明围绕这些模型的生态系统,需要记住这两点。是的,这很有用。所以,在我们开始结束时,有一些重要的问题,让我们暂时从技术层面脱离出来,并解决大型生态系统,人工智能社区的问题

你会预测DeepSeek现在出现在这里,以及事情会如何发展?很明显,市场做出了反应。我认为他们拿走了……

从英伟达那里拿走了5000亿美元,再加上另外5000亿美元。他们不是有很多万亿美元吗?他们有一些。他们有一些。所以,但这可能会在未来稳定下来。你认为未来几个月我们会看到什么?除了今天市场反应的那一天之外,我们正在谈论,但当你展望六个月后,

九个月后,诸如此类的事情。你认为DeepSeek对全球人工智能社区的真正影响是什么?好吧,我们已经说过一段时间了,但我认为更广泛的商业界还没有意识到这一点。从这一点产生的或

将会发生变化的事情,我认为,是人们认真对待未来,你的企业需要考虑的部分内容是模型的可选择性,对吧?这些GPT模型在很长一段时间内都是王者。但是现在,就像,

你知道,显然如果你有500万美元闲置,你可以创建一个一流的模型。你知道,这意味着所有这些都会很快激增。这不是我们将看到的最后一种此类模型。它们将很快激增。并且你拥有某种意义上的模型锁定,引用一下,就像你围绕这个特定模型构建了你所有的人工智能功能一样,无论它是开放的还是封闭的,

从长远来看,这对你来说不会很好,仅仅是因为模型在不断变化。因此,我认为,构建这种交换模型、拥有控制和可配置性的能力,这是其中一种趋势。我想说的另一个是,既然你正在考虑将这些模型引入你自己的基础设施,就像在许多方面与

OpenAI相当。它提出了我们立即遇到的所有这些问题,对吧?就像,如果你将它带入你的环境,那么与之相关的安全问题是什么?你如何稳健可靠地运行它?你应该在生产中监控什么,对吧?所以它提出了所有这些额外的问题,我认为总的来说,人们应该考虑这些问题,因为他们可能应该在过去一年中就应该考虑这些问题,因为很多东西都是建立在一个模型系列之上的。所以是的,这些只是一些想法。我不知道你是否还有其他想法。我一直都在推测,随着所有这些不同的人工智能初创公司在全球范围内的估值不断上涨,预算也呈天文数字般增长,现在是否是投资者看到这种情况并说:

为什么你需要1亿美元?为什么我们不给你500万美元,看看你能用它做什么?看看他们用它做了什么。看看他们用它做了什么等等。所以,你知道,人工智能初创公司的运营成本是否会受到影响。如果,如果情况如此,并且,呃,

可能并非每个人都能充分利用他们的500万美元。你知道,这意味着什么?我们会在人工智能初创公司领域进行一些清理工作吗?在我们结束时,对此有什么想法吗?是的,这很有趣。我的意思是,如果你是一种模型构建类型的初创公司,它肯定会产生影响,当然。即使在上周,我们也看到了其他例子,你知道,从

Genmo那里听到他们使用小型团队进行视频生成模型的工作以及他们能够取得的成就。我认为这肯定对这一方面有影响。我认为它也对那些……

希望如此,我认为人们将开始考虑较少的模型构建项目,这将很有趣。但是,这也将使模型构建和微调更容易为企业所用,这将推动工具和基础设施类型的投资。现在,我认为这些不会有那种膨胀的潜力。

就像,“我需要1亿美元来训练一个模型”这样的情况。但是是的,我们将看看情况会如何发展。我认为在,我认为在企业界,也许作为对此的最后一点想法,我认为,呃,你将看到现有的预算,这些预算通常对于大型公司来说,你知道,是,是数亿美元,你知道,他们不是人工智能专业公司,但它很重要,所以有一个很大的预算。嗯,

我一直使用的其他模型,我们围绕这些模型构建了很多基础设施,也许现在有压力要专门为你的企业创建的模型工作,因为你有了500万乘以X的资金来以新的思维方式做到这一点。所以它肯定会改变企业界的期望。我认为在这种情况下,将会强调的是……

数据整理和人工参与该过程。是的。这并不是,我的意思是,这里显然在这方面进行了大量投资。所以即使你为此花费了500万美元,

你知道,最终的训练。肯定有一个过程会进入其中。我同意。是的。今天的谈话很好。是的,绝对的,Chris。一定要查看我们将在节目说明中添加的关于此的一些文章的链接,这些文章既涉及技术方面,也涉及更受炒作的政治方面。所以请查看一下。感谢再次加入。很高兴与你交谈,Chris。是的,绝对的。下周见。

好了,这就是我们本周的节目。如果你还没有查看我们的ChangeLog时事通讯,请访问changelog.com/news。在那里,你会找到29个理由,是的,29个理由说明你应该订阅。