对DeepSeek好奇?这个五分钟的周五是为你准备的!Jon Krohn调查了这家新型LLM一夜爆红的惊人成功,它出自一家中国对冲基金。DeepSeek是市场上的新手,但却与来自OpenAI、Anthropic和Google的巨头们并驾齐驱,仿佛一切都是家常便饭。更多资料:www.superdatascience.com/860有兴趣赞助SuperDataScience播客节目吗?请发送电子邮件至[email protected]获取赞助信息。</context> <raw_text>0 这是第860集,关于DeepSeek R1。
欢迎回到Super Data Science播客。我是你的主持人Jon Krohn。让我们像有时在周五那样,从节目的几篇最新评论开始。第一个来自Rem Nassa,他在Apple播客上评论说,他们经常收听,并且已经收听Super Data Science播客几年了,他们总是觉得内容很吸引人。他们说,
有时内容有点超出他们的理解范围,但他们一定会查阅相关信息,并从每一集中学到东西。非常酷。很高兴听到你的话,Ramnasa。我们也收到了第二个Apple播客评论。这个评论来自SailATX。它说Super Data Science播客是了解AI世界以及在这个行业工作的人们的绝佳方式。他们说我们节目中的嘉宾都非常棒,而且总是很有趣。
他们也对我的YouTube微积分课程赞赏有加,并表示它正在帮助他们复习数学,为他们正在学习的数据科学课程做准备。酷。祝你课程顺利,SAIL ATX。我希望你们两位,Ram Nasa和SAIL ATX,都能继续享受这个节目。感谢你们最近在Apple Podcasts、Spotify和所有其他播客平台上提供的评分和反馈,以及在YouTube视频上的点赞和评论。
作为一种友好的竞争,我几周前第一次提到这一点。长期听众可能知道,我已经六次客串主持了优秀的《Last Week in AI》播客,而该节目的两位常驻主持人Andre和Jeremy也曾做客Super Data Science播客。虽然他们的节目比Super Data Science播客年轻很多年,但在Apple播客的评分数量上,他们正在追赶Super Data Science播客。在录制时,我们有......
286个评分,而他们有255个。所以我们仍然领先。自从我几周前最后一次提到这件事以来,两个播客都分别获得了大约五个评分。所以我们势均力敌。但看起来我需要你们继续
努力,争取在Apple Podcasts上获得300个评分。所以请帮助我领先于Andre和Jeremy,前往你的播客应用程序并为Super Data Science播客评分。如果你留下书面反馈,我会在节目中念出来,就像今天这样,额外加分。好了,现在进入今天的主题。最近几周,我相信你已经注意到,围绕DeepSeek有很多兴奋之情,DeepSeek是一家中国人工智能公司,两年前才从一家中国对冲基金中分离出来。
DeepSeek的v3意识流聊天机器人风格模型引起了全世界的关注,因为它能够与OpenAI的GPT-4和Google的Gemini 2.0 Flash等接近最先进的模型相媲美。但DeepSeek的推理模型,有点像OpenAI的O1推理模型。所以,这并不是意识流,这些推理模型会在输出内容之前回顾它们所谓的“思考”过程。这种推理方式对于那些你可能会用笔和纸思考和推理的任务非常有效,例如数学题、计算机科学问题等等。你可以在本节目的第820集听到更多关于这些推理模型的信息。
嗯,但总而言之,DeepSeek名为R1的推理模型造成了巨大的经济冲击,例如英伟达的股价下跌了17%,纳斯达克指数在上周一下跌了几个百分点(在撰写本文时)。DeepSeek的R1推理模型在统计上,在95%的置信区间内,与顶级模型并列第一名。从统计学角度来说,它确实名列第一,与来自Google的GPT-4.0和Gemini 2.0 Flash并列。因此,LM Arena排行榜是你可以用来比较LLM性能的众多排行榜之一
但LM Arena排行榜尤其有趣,因为它涉及人类对一个输出与另一个输出的性能进行盲评。
所以,是的,这是一个有趣的排行榜。如果你想了解更多关于这个排行榜的信息,你可以在本播客的第707集听到很多内容。无论如何,这种出色的表现,以及在LM Arena排行榜和其他排行榜上的领先地位,首先引起了全球关注,因为DeepSeek是一家默默无闻的中国公司。而之前所有的顶级模型都是由美国人设计的,特别是由海湾地区的科技巨头设计的。
然而,比大国政治更重要的是,DeepSeek的R1引发了全球经济海啸,因为它在性能上与OpenAI、Google和Anthropic的最佳模型相当,而训练成本却低得多。在尝试比较两家不同公司中两个不同LLM的成本时,需要考虑各种复杂性、外部因素和估计。例如,那些没有成功的训练运行的成本呢?但是
粗略估计一下,训练单个DeepSeek V3或DeepSeek R1模型的成本大约为数百万美元,而训练像O1、Gemini或Claude 3.5 Sonnet这样的海湾地区最先进的模型的成本据报道大约为数亿美元,大约是前者的100倍。
正如我在这个节目中多次说过的那样,即使没有概念性的科学突破,仅仅扩大O1、Gemini或Claude所基于的Transformer架构,例如增加训练数据集的大小、增加模型参数的数量、增加训练时间的计算量,或者在像O1这样的推理模型的情况下,增加推理时间的计算量。
这样做任何一种扩展都会带来令人印象深刻的LLM改进,这些改进将在越来越多的认知任务上超越越来越多的人类,并将机器带向通用人工智能的方向。如果你不知道AGI是什么,你可以查看第748集和第820集,了解更多关于我刚才在上一句话中所说的所有内容。
然而,在我所做的这个扩展声明中隐含的是,如果研究人员能够在机器学习方式方面取得重大的概念性科学突破,也就是真正取得科学突破,而不是仅仅扩大规模,我们就能更快地向AGI迈进。
如果人工智能模型开发方面的概念性突破能够使机器在提高认知能力的同时也更有效地学习,这将减少服务器机房的能源消耗、减少通过服务器冷却造成的淡水损失,当然,它还会节省与运行人工智能模型相关的纯粹的财务成本。
DeepSeek通过结合一些现有的想法,例如专家混合模型,取得了这样的概念性突破。你可以在第778集了解更多关于这些内容的信息。是的,将这些现有的想法与全新的重大效率相结合,例如一个名为DualPipe的GPU通信加速器。
它安排了数据在DeepSeq似乎用来训练R1的几千个GPU之间传递的方式,从而获得了令人惊叹的结果。现在,2000个GPU听起来可能很多,但这仍然大约是Meta的马克·扎克伯格和xAI的埃隆·马斯克在一年内吹嘘采购的数量的1%,这些GPU可能用于训练一个越来越大的下一个大型语言模型。
在本集中,我不会进一步深入探讨DeepSeek模型的技术细节,但如果你想更深入地研究技术方面,我已经提供了一个链接到DeepSeek完整的R1论文,以及一篇在Next Platform(一个在线科技新闻网站)上发表的、极其详细且写得很好的博文,对该论文进行了分解。
从技术方面转向地缘政治,DeepSeek的成功表明,阻止中国公司获得最新、最强大的英伟达芯片的美国制裁是无效的。这些制裁的明确目的是为了防止中国在通往AGI的道路上超越美国,特别是考虑到拥有能够远远超过人类认知能力的机器的军事意义。但是
现在,一家中国公司已经找到了一种方法,利用大约1%数量的芯片,以大约1%的成本,并使用比美国公司能够获得的芯片能力更低的英伟达芯片,来接近美国公司的AI能力。顺便说一句,对于中国共产党来说,这是一个单独的难题,出于地缘政治原因,他们可能更希望DeepSeek的知识产权保持专有,然而......
DeepSeek慷慨地将其工作开源,供全世界利用,以推进人工智能研究以及人工智能应用开发。所有DeepSeek v3和R1的源代码和模型权重都可以在GitHub上找到。我在节目说明中提供了指向它的链接。所有这些源代码和模型权重都可以在高度宽松的MIT许可下使用。
另一方面,像OpenAI、Google、Anthropic和xAI这样的专有模型的所有方面都是专有的。所以,对于人工智能社区来说,DeepSeek的人们做出了另一个巨大的贡献。
DeepSeek的这种开放程度甚至远远超过了Meta的Llama系列等所谓的开放LLM,因为Meta提供了模型权重,但没有提供源代码,而且Meta的非同寻常的许可证包括一些限制,例如将Llama模型的使用限制在活跃用户少于7亿的公司。
除了提供开源模型外,DeepSeek还创建了一个iOS应用程序。在录制本集时,它在Apple App Store中排名第一。但我还是要提醒你,不要使用DeepSeek应用程序,因为根据该应用程序的隐私政策,你输入到DeepSeek应用程序中的任何内容都会被该公司收集并存储在中国服务器上。
如果你想私下使用DeepSeek模型,但不想花费时间或金钱下载模型权重并在你自己的硬件上运行它,你可以使用Ollama这样的平台。我在节目说明中提供了Ollama提供的DeepSeek的R1模型的链接,所以你可以这样做。
好的,希望你对现在可以无限制地访问最先进的人工智能能力感到兴奋,但这仅仅是兴奋的开始。如此显著的更高效的LLM训练使得OpenAI、xAI和Anthropic最近筹集的60亿美元资金(其中大部分将用于训练更大规模的Transformer架构,以实现更长的推理时间)看起来可能不再是很好地分配的资本。
DeepSeek的发布恰逢其时,但却与包括OpenAI、Oracle和SoftBank的首席执行官以及唐纳德·特朗普在内的5000亿美元星门人工智能基础设施项目的宣布同时发生,这具有讽刺意味。当成本核算员假设LLM将在未来几年按数量级增长时,这5000亿美元的星门计划数字可能才有意义。
是的,相应地,英伟达的股价一天内下跌了17%。尽管在本播客节目的撰写和录制时,部分股价跌幅已经回升。但股价之所以下跌17%,是因为股东意识到他们已经计入未来GPU订单的LLM规模增长可能不再实现。但对我们大多数人来说,当然对我来说,可能对大多数听众来说,
显著更高效的LLM训练和对直到几年前才主导人工智能模型研究的开源模型的重新利用是一个好消息。特别是LLM效率的提高意味着与人工智能相关的环境问题减少,这意味着开发、训练和运行人工智能模型的成本更低,因此开发实用的人工智能应用程序的成本更低,并且更广泛地为世界各地的人们使用和受益。
这些确实是令人兴奋的时代。梦想一些伟大的事情,并让它实现。从来没有像今天这样有机会产生影响。
好了,今天的节目就到这里。如果你喜欢这个节目,或者认识可能想与他们分享这个节目的人,请在你最喜欢的播客平台上留下对节目的评论。在你的LinkedIn或Twitter帖子中标记我,分享你的想法。如果你还没有订阅这个节目,显然要订阅。然而,最重要的是,我希望你能继续收听。直到下次,继续前进,我期待着很快与你一起再次享受Super Data Science播客。