We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

What The Hell Is DeepSeek?

2025/1/31

Better Offline

AI Deep Dive AI Chapters Transcript

People

Ed Zitron

一位专注于技术行业影响和操纵的播客主持人和创作者。

Topics

Ed Zitron: 我认为DeepSeek的出现对整个生成式AI行业,特别是对美国公司来说,是一个巨大的冲击。他们开发的模型不仅在性能上与OpenAI等巨头旗鼓相当,甚至在某些方面还超越了它们,但成本却低得多,运行效率也高得多。这直接挑战了美国公司长期以来奉行的‘越大越好’的策略,也动摇了他们赖以生存的高成本商业模式。DeepSeek的开源策略更是雪上加霜,使得任何人都可以免费使用和改进他们的模型,这将加速技术迭代,并进一步挤压美国公司的生存空间。 DeepSeek的成功,也暴露了美国生成式AI公司的一些问题。他们长期以来依赖于高额的资金投入和无限的算力,忽视了效率和成本控制,这使得他们缺乏应对竞争的灵活性。而DeepSeek则通过精巧的算法和技术创新,在有限的资源下实现了高性能和低成本,这为其他AI公司树立了一个新的标杆。当然,DeepSeek的崛起也引发了一些担忧。例如,其资金来源和数据安全问题,以及潜在的国家资助等。但无论如何,DeepSeek的出现都将深刻地改变生成式AI行业的竞争格局,迫使美国公司重新思考其发展战略。

Deep Dive

Chapters

This chapter introduces DeepSeek, a relatively unknown Chinese AI company that has disrupted the generative AI industry with its efficient and open-source models. These models are significantly cheaper to run and outperform existing models from major players like OpenAI. This has sent shockwaves through the market, challenging the established narrative of expensive AI development.

DeepSeek's models undercut OpenAI's in several meaningful ways
DeepSeek's models are open source and significantly more efficient
The AI bubble narrative is challenged by DeepSeek's cost-effectiveness

Shownotes Transcript

你想窥探未来吗?你想了解正在塑造你人生的无形力量吗?你想体验构成我们人类本质的边界吗?在《科技玩意儿》中,我们将从刚果的矿山到火星表面,从与诺贝尔奖得主的对话到TikTok的深处,提出关于科技的尖锐问题,从

从高科技到低俗文化,以及介于两者之间的所有内容,加入我们。在 iHeartRadio 应用程序、Apple Podcasts 或您收听播客的任何地方收听《科技玩意儿》。欢迎来到《抉择抉择》,这是一个突破界限、对话坦诚的播客。加入您最喜欢的两位主持人,我,Weezy WTF,和我,Mandy B,我们将深入探讨非传统关系的世界,并探索围绕约会、性等经常被视为禁忌的话题,以及

每周一和周三,我们都邀请您摒弃传统父权规范所规定的过时叙事。收听并加入对话。在 Black Effect Podcast Network、iHeartRadio 应用程序、Apple Podcasts 或您收听播客的任何地方收听《抉择抉择》。

我们想大声疾呼,我们希望这一切停止。哇,非常有力。我是艾莉·弗林,一名调查记者,这是我深入成人娱乐业的旅程。我真的很想在我的成年生活中成为一个花花公子。他说,我会带你到顶峰,我会让你成为明星。揭露一个所谓的掠食者和他工作的腐败行业。老实说,这比我预期的要糟糕得多。与他相比,我们是一支军队。

从小说开始,在 iHeartRadio 应用程序、Apple Podcasts 或您收听播客的任何地方收听《兔子的陷阱》。未经审查的母亲OG们回来了,比以往任何时候都更厉害。我是埃里卡。我是米拉。我们是《好妈妈坏选择》播客的主持人,由 Black Effect Podcast Network 每周三推出。是的,我们是妈妈,但不是你的妈妈。历史上,男人说得太多了

大家好,欢迎收听《更好离线》。我是你的主持人,埃德·齐特隆。

你们很多人已经联系我了。是的,你们将听到关于DeepSeek的节目。事实上,这是两集中的第一集。这将在星期五发布,也就是你收听这集的时候,然后会在星期一继续。我道歉。我花了大量的星期一来写这个,也学习了很多这方面的东西,试图尽可能地提炼它。这种情况非常奇怪,而且还在发展中。

而且我认为,即使我发布了这一集,也还有一些新的部分是我还没有真正涉及到的。在这些节目中,我将尽我所能解释DeepSeek正在发生的事情、它的意义、他们构建的东西以及它在未来会做什么。但让我们开始吧。

所以,当1月份结束时,整个生成式AI行业发现自己陷入了一种混乱状态。简而言之,最近的AI泡沫,特别是数十亿美元的支出,取决于这样一个大想法:我们需要更大的模型,这些模型既要经过训练,又要运行在更大、甚至更大的GPU上,这些GPU几乎完全由英伟达销售。反过来,它们又基于微软、甲骨文、亚马逊和谷歌等公司拥有的越来越大的数据中心。

现在,也有一种预期认为这种情况将永远持续下去。这个行业的傲慢自大是整个交易的一部分。生成式AI本来就应该是这样的,至少对于美国开发者来说是这样。它总是意味着能源和计算密集型。扔进整个动物园的动物和沸腾的湖泊是必要的。没有其他方法可以做到这一点。

而且我认为,至少我曾经认为,这是因为他们只是,他们试图使它们更高效,但他们做不到。关于基于转换器的架构,就像支撑ChatGPT的东西一样,至少GPT模型支撑ChatGPT也是如此,有一些东西。但事实并非如此。

几周前,一家鲜为人知的中国人工智能公司DeepSeek出现,它拥有多个模型,这些模型不仅与OpenAI的模型具有竞争力,而且在几个重要方面都超过了它们。DeepSeek的模型是开源的,这意味着它们的源代码和研究是公开的,

而且它们也更有效率。就其推理模型R1而言,运行成本低至原来的30分之一,这与OpenAI的O1具有竞争力,并且比GPT-4.0高效15倍或更多。当你想到它的时候,这实际上有点疯狂。正如你将听到的,这件事让我再次感到震惊。更疯狂的是,其中一些可以被蒸馏,我稍后会讲到,并在笔记本电脑等本地设备上运行。这太疯狂了。

因此,市场已经恐慌了,因为AI泡沫的整个叙事一直是这些模型必须昂贵,因为它们是未来。这就是为什么超级计算公司必须花费2000亿美元的资本支出用于基础设施来支持这个美好的繁荣,特别是OpenAI和Anthropic的想法。存在另一种方法的想法,事实上我们不需要花费所有这些钱,也许我们可以找到一种更有效的方法,那么......

这将要求他们除了尽可能多地投入资金解决问题之外,还需要有另一个想法。是的,事实证明,他们根本没有考虑过。现在,这个局外人出现了,它颠覆了整个传统认知,甚至可能推翻了美国科技巨头的一员。山姆·奥特曼,一个创造了,如果不是人格崇拜,某种不可战胜的远见卓识的公众形象的人,他将领导自互联网以来最大的技术变革的前沿。是的。

他错了。他从来没有这样做过。我已经说过一段时间了。他从来没有这样做过。但DeepSeek不仅仅是一个局外人。不,他们是一家从一家小型中国对冲基金中衍生出来的公司,至少按照对冲基金的标准来看,其资产管理规模为55亿美元。他们的创始团队远没有山姆·奥特曼那样的名气和知名度,甚至没有他的荣誉。对于DeepSeek以外的所有参与者来说,这都非常令人羞辱。

最重要的是,DeepSeek最大的、最难看的侮辱是,它的模型DeepSeek R1与OpenAI极其昂贵的O1推理模型具有竞争力,但运行成本却低得多,低了96%。正如我所说,它甚至可以在本地运行。与我认识的一些开发者交谈后,其中一人能够在其2021款配备M1芯片的MacBook Pro上运行DeepSeek的R1模型。那是一台四年前的电脑。

没有3万个GPU在眼前。这太疯狂了。更糟糕的是,DeepSeq的模型可以免费使用,源代码在MIT技术许可证下发布,以及它们是如何制作的研究,尽管不是训练数据,这使得一些人说它并不是真正的开源。但为了论证起见,我只是说开源。

顺便说一下,这意味着DeepSeq的模型可以被改编并用于商业用途,而无需支付版税或费用。任何人都可以利用它来构建自己的模型。这太疯狂了。相比之下,OpenAI远非开放,其最后一个在MIT许可证下发布的LLM是2019年的GPT-2。不,不,等等,等等,该死的。让我纠正一下。DeepSeq最大、最丑陋的秘密实际上是它显然瞄准了OpenAI产品组合的每一个元素。

由于该公司本周已经占据了头条新闻,它悄悄推出了其Janus Pro 7B图像生成和分析模型,该公司表示该模型的性能优于Stable Diffusion和OpenAI的DALL-E 3。顺便说一下,这些都是图像生成工具。所以你可以输入一些像“带胸部的加菲猫”之类的东西,然后就会出现一个“丰满的加菲猫”。这可能是你第一次在这个播客中听到这个词,但可能不是最后一次。与其他代码一样,

DeepSeek已将其免费提供给商业和个人用户,而OpenAI则主要对DALL-E 3设置了付费墙。

这真是一个疯狂的情况,这也是一个愤世嫉俗的、粗俗的“大卫与歌利亚”版本,一家由一家神秘的中国对冲基金支持的科技初创公司,其资产管理规模达80亿美元,却以某种方式成为对抗笨拙的亏损的、愚蠢的1500亿美元初创公司的勇敢新贵,这家初创公司得到了多家上市科技公司的支持,市值超过3万亿美元。

顺便说一下,我前面说过资产管理规模为55亿美元,这就是为什么你要提前检查你的笔记的原因。但我不会删掉它,这是最新的。我在纽约的一个壁橱里。内容必须流动。无论如何,DeepSeek的v3模型与OpenAI的GPT-4和Anthropic的Claude Sonnet 3.5模型具有可比性和竞争力,顺便说一下,它具有一些推理功能,

正如我所说,使用该公司自己的云服务时,R1的运行成本低了53倍。如前所述,该模型实际上可以免费供任何人在其本地或自己的云实例上使用,任何商业企业都可以将其作为自己的产品,如果他们希望与OpenAI竞争,这是有史以来最响亮、最烦人的初创公司。

本质上,DeepSeek,我将在稍后讨论其背景以及人们可能对其中国血统的担忧,发布了两个模型,其性能与OpenAI和Anthropic的模型具有竞争力,甚至超过了它们,价格更低,然后将其开源,这不仅破坏了最大生成式AI公司的经济效益,而且还揭示了它们的工作原理。魔法消失了。山姆·奥特曼的灵魂里不再有巫术了。一切都摆在那里了。

这一点在OpenAI的推理模型中极其重要,该模型特别隐藏了其思维链,因为它担心这些不安全的思想可能会操纵客户。然后他们低声补充说,他们这样做的真正原因是竞争优势。

现在解释一下这意味着什么,当你向OpenAI的O1模型发出请求时,例如,给我所有包含字母“R”的州,它实际上会向你展示它的思考过程。顺便说一下,这些东西根本不会思考。它们是电脑胡说八道。它们根本不会思考。但我将仅为此使用它。所以你会看到它说,好的,这里所有美国州。哪些州有那个字母?我正在检查所有这些。它实际上是一个大型语言模型检查另一个大型语言模型。

现在,问题是,它们向你展示的步骤都被清理过了。它们看起来很漂亮。它们格式很好。DeepSeek的思维链完全暴露无遗,这非常有趣,因为它真的让OpenAI的计划落空了。最重要的是......

它允许你实际看到这些东西是如何思考事情的。再次强调,并不是真正的思考。但即便如此,你仍然可以看到关于大型语言模型如何工作的事情,而这些公司不希望你拥有这些信息。最重要的是,OpenAI的O1模型还有更糟糕的东西,那就是这些思维链都需要花钱。

当你看到它生成这些想法时,它实际上生成的思想比你看到的要多,因为它们隐藏了思维链。因此,OpenAI只是向你收取不确定的金额,正如我稍后将要讲到的那样,这是一个天文数字。但是,你不知道你被收取了什么费用。你甚至不知道引擎盖下到底发生了什么。或者你可以使用DeepSeek。

顺便说一下,让我们完全清楚一点:OpenAI对抗Meta和Anthropic的唯一竞争优势是其推理模型O1和O3。顺便说一下,O3目前处于研究预览阶段,基本上只是更多相同的东西。尽管我在节目开头提到Anthropic的Claude Sonnet 3.5具有一些推理功能,但它们与O1和O3以及我认为的DeepSeek的模型R1相比,相对来说更为粗糙。

在AI环境中,推理通过将提示分解成一系列不同的步骤来工作,并考虑不同的方法。正如我前面所说,实际上是一个大型语言模型检查它自己的作业,没有任何思考过程,因为正如我所说,它们不会思考或知道任何事情。

OpenAI去年匆忙推出了其O1推理模型,因为,我引用去年10月份《财富》杂志的话说,山姆·奥尔曼渴望向潜在投资者证明,在公司最新的融资轮中,OpenAI仍然处于AI发展的最前沿。正如我在当时的新闻通讯中指出的那样,它并不是特别可靠,无法准确计算字母“R”在单词“草莓”(O1的代号)中出现的次数。非常有趣的事情。

在这一点上,很明显OpenAI根本没有处于AI发展的最前沿。现在,由于它的竞争优势实际上消失了,人们对该公司接下来会发生什么产生了真正的怀疑。正如我将要讨论的,DeepSeek的故事有很多值得怀疑的地方。它的资金、它拥有的GPU以及它实际花费在训练这些模型上的资金。但我们明确知道的是真的。

这对OpenAI来说是个坏消息。我认为,在过去几年里跳上生成式AI潮流的每一个其他大型美国科技公司也是如此。你想了解正在塑造你人生的无形力量吗?我是奥斯瓦尔德·奥西安,《科技玩意儿》这个长期播客的新主持人之一。我有点怀疑,但又非常着迷。我是卡拉·普莱斯,另一位新主持人。我准备尽早并经常采用。

在《科技玩意儿》中,我们将从刚果的矿山到火星表面,再到TikTok的黑暗角落,一路旅行,提出并试图回答关于科技的尖锐问题。在火星生存的一种技巧是住得足够久,以便人们进化成火星人。就像数据是复杂现实的一个非常粗略的替代品一样。怎么可能

世界的新能源革命可以建立在这个晚上没有电的地方。我和奥兹将消除噪音,为您带来最佳对话和深入探讨,帮助您了解科技如何改变我们的世界,以及您需要了解哪些信息才能在奇点中生存。所以加入我们。在 iHeartRadio 应用程序、Apple Podcasts 或您收听播客的任何地方收听《科技玩意儿》。

嘿,大家好,我是来自《上帝的国度》播客的里德。本周我们邀请到了独一无二的鲍比·博恩斯来到演播室,我们涵盖了他从成长经历到与继父阿肯色州基思的户外经历,再到乡村音乐现状的一切。我们甚至可能会在节目结束时进行一场由鲍比本人领导的小型音乐会。大家一定要收听本期与鲍比·博恩斯一起播出的《上帝的国度》,可在 iHeartRadio 应用程序、Apple Podcasts 或您收听播客的任何地方收听。不要去塔吉特购物。

穿着卡其裤和一件红色衬衫不要去塔吉特购物穿着卡其裤和一件红色polo衫一个老太太走到我面前她说这碗麦片粥多少钱

嘿,我是亚历克·鲍德温。在本季我的播客《这就是重点》中,我与音乐家、摄影师和慈善家朱利安·列侬进行了交谈。在我的摄影和图像关系中发生的一件非常重要的事情是,我会收到人们写给我的信,这些人......

无力负担环游世界或去任何地方,无力或残疾,无法环游世界或去任何地方。他们都对我说,你把这些故事带给我们,你带来真相,你带给我们我们永远不会了解的文化的生命。

摄影确实让我能够做到这一点。对世界上另一端你永远不会遇到的人产生同理心,但你至少会对他们的生活以及他们经历过或仍在经历的事情有所了解。在 iHeartRadio 应用程序、Apple Podcasts 或您收听播客的任何地方收听新一季的《这就是重点》。

乔恩·斯图尔特回到了《每日秀》,他将自己标志性的机智和洞察力直接带到您的耳朵里,通过《每日秀耳朵版》播客。深入了解乔恩对政治、娱乐、体育等最重要话题的独特看法。由节目的记者和撰稿人的敏锐声音加入。

并通过扩展采访和独家每周头条新闻综述,此播客为您提供您在任何其他地方都找不到的内容。准备好欢笑并保持知情吗?在 iHeartRadio 应用程序、Apple Podcasts 或您收听播客的任何地方收听。DeepSeek的模型确实存在。它们有效,至少按照容易产生幻觉的LLM的标准来看,它们不会,冒着重复自己的风险,什么也不知道。

它们已被独立验证具有竞争力,其数量级比超级计算公司(谷歌的Gemini、Meta的Llama、亚马逊的Q等等)和OpenAI和Anthropic发布的模型的价格都要便宜。

DeepSeq的模型不需要大型的新数据中心。它们运行在目前用于运行ChatGPT等服务的GPU上,甚至可以在更简陋的硬件上运行。它们也不需要每年都需要无限供应更大、更快的英伟达GPU才能进步。整个AI泡沫是基于这样的前提而膨胀起来的:如果不烧掉大量的现金、使电网不堪重负并超过排放目标,这些模型根本不可能构建。

而且这些成本既是必要的,也是真正好的,因为它们将导致创造强大的AI,而这尚未发生。在这一点上,很明显这是不正确的。现在市场上的人们正在四处打听,他们提出了一个非常合理的问题。该死的,我们是不是浪费了2000亿美元?无论如何,让我们深入了解细节。什么是DeepSeek?

首先,如果你想深入了解它是什么,我强烈推荐VentureBeat的报道。我通常会在节目说明中添加链接。它非常好,而且比我将要讲的更详细。但这里是你没时间读的版本。DeepSeek是来自一家名为High Flyer Quant的中国对冲基金的分支机构。它是一家相对较小且年轻的公司。从一开始,它就大力发展算法和AI驱动的交易。后来,它开始构建自己的独立聊天机器人,包括针对中国市场的ChatGPT等效产品。

这就是我们现在所知道的。我相信你们中的一些人会说,哦,好吧,谁知道这是不是真的?当然,我认为这是公平的。我还认为,我们也应该质疑山姆·奥特曼传奇故事的某些部分。我认为山姆·奥特曼成为Y Combinator负责人的情况非常值得怀疑。我说你可以质疑DeepSeek,而且确实应该质疑。我们应该对这些强大的公司更批判。但不要只做一半。如果我们要担心,让我们担心所有人。

现在,DeepSeek做了一些不同的事情,例如开源其模型,尽管它可能基于其他公司的技术,例如Meta的Llama和ML库PyTorch。为了训练其模型,它在美方实施出口限制之前获得了超过1万个英伟达GPU,这听起来很多,但这只是谷歌、OpenAI和Anthropic等大型AI实验室可以使用的GPU的一小部分。我认为我听说过每个实验室有10万到30万个,甚至更多。

现在,你可能已经看到或听说DeepSeek训练其最新模型的成本为560万美元,而不是我稍后将要讲到的天文数字。我想明确一点,任何和所有对这个数字的提及都是估计值。事实上,558万美元这个数字的出处似乎是引用了英伟达工程师在《南华早报》的一篇文章中发表的一篇文章,该文章链接到《南华早报》的另一篇文章,该文章只是指出DeepSeek v3拥有6

171亿个参数,并在大约两个月内以558万美元的成本进行了训练,没有任何其他引用。所以你应该谨慎对待它,但这并不是完全荒谬的。虽然有些人估计DeepSeek的V3模型据其论文称,据称是使用2048个Nvidia H800 GPU进行训练的,

Strateetree的本·汤普森已经明确表示,550万美元的数字只涵盖了官方训练运行的字面训练成本。顺便说一下,在V3的论文中,这一点相当清楚。而这一个与OpenAI的GPT-4模型具有竞争力。这意味着任何与先前研究或如何构建模型的实验相关的成本都被忽略了。现在,向Minimax致敬,他在Blue Sky和Twitter上的人。他很棒。他很棒,还补充说,这在业内相当普遍。再次,

你可以选择你对这件事的感受,但我希望给你提供信息。虽然可以肯定地说DeepSeek的模型训练成本更低,但实际成本,特别是由于DeepSeek不共享其训练数据,有些人可能会认为这意味着其模型并非真正的开源,正如我所说,这些数字就更难猜测了。

汤普森指出,DeepSeq必须设计出一系列巧妙的解决方法来使模型发挥作用,包括编写最终改变GPU之间实际通信方式的代码。使用英伟达的开发者工具无法实现此功能。他们真的必须深入研究。这很酷。

DeepSeek的模型V3和R1更高效,因此运行成本更低,并且可以通过其API访问,价格远低于OpenAI的价格。运行DeepSeek的GPT-40竞争对手V3模型的DeepSeek Chat的成本为0.07美分。

每100万个输入标记(即给模型的命令)和1110美元每100万个输出标记(即模型的输出结果)。我知道这些数字听起来像是数字,也许你没有上下文,所以让我给你一些。与OpenAI对GPT-4.0收取的每100万个输入标记2.50美元和每100万个输出标记10美元相比,这是一个巨大的价格下降。

这不仅仅是削弱。这是一个地堡破坏者。

现在,我稍后会稍微讨论一下,你正在使用托管在一个你可能不知道的国家(可能是中国)的模型。存在数据问题。但同样,你也可以把它放在你自己的服务器上。你可以把它放在谷歌云上。微软和谷歌显然都在考虑这个问题。现在,有报道称谷歌已将其添加到谷歌云中。不,他们没有。他们没有这样做。他们允许你连接Hugging Face。这是一大堆技术性内容,如果你理解的话,你会说,“是的,埃德,我知道。”

长话短说,超级计算公司已经在推出DeepSeek了。

我将在稍后详细解释为什么这很糟糕,但这也很有趣。现在还有一件有趣的事情。DeepSeek Reasoner,它的推理模型,每100万个输入标记的成本为0.55美元,每100万个输出标记的成本为2.19美元。这听起来很贵。也许是吧,不管怎样。与OpenAI的每100万个输入标记15美元和每100万个输出标记60美元相比,这简直就是九牛一毛。哇。

如果我是山姆·奥特曼,我会吓得尿裤子。但这里有一个明显的障碍。我们不知道DeepSeek在哪里托管其模型,谁可以访问这些数据,或者这些数据来自哪里或去向哪里。除了它与我前面提到的2023年从中分离出来的对冲基金HiFlyer有关之外,我们不知道谁资助了DeepSeek。有人担心DeepSeek可能由国家资助,其低廉的价格是一种地缘政治武器,正在摧毁美国的生成式AI产业。

我不确定情况是否如此。中国长期以来一直将AI视为其国家产业政策中的战略组成部分,并据报道帮助其希望赶上西方世界的行业的公司,这当然是事实。

“中国制造2025”计划据报道为从事芯片制造、航空航天和AI等行业的中国公司提供了数千亿美元的资金。这种支持的程度并不完全透明,不出所料,因此DeepSeek也是国家援助的受益者,这并非完全不可能。

好消息是,我们将很快发现。美国AI基础设施公司Grok已经上线了DeepSeek的模型,这意味着我们将至少得到一个......某种确认,这些价格是否现实,或者它们是否受到了支持DeepSeek的任何人的大力补贴。DeepSeek部分由一家对冲基金所有,这也很可能是事实,这家对冲基金可能不缺资金来投入其中。

但顺便说一句,鉴于OpenAI是数十亿美元云计算积分的受益者,并且获得了微软Azure云服务的优惠价格来运行其......

敏捷模型,他们抱怨竞争对手受到能够承担业务成本的更大实体的补贴,如果情况确实如此的话,这有点困难。顺便说一下,Anthropic也是如此。是的,我知道微软不是一个国家,但其市值达3.2万亿美元,季度营收超过一些欧盟和北约国家的GDP总和,它几乎是仅次于国家的存在。

但闲话少说。无论对中国恶意影响可能存在的任何担忧,除了DeepSeek本身提供的低廉价格外,都几乎无关紧要。即便如此,目前也只是推测。一旦这些模型托管在其他地方,一旦DeepSeek的方法(我稍后会讲到)被复制,顺便说一句,这不会花费很长时间,我相信我们会看到这些价格反映了这些模型运行成本的低廉。

你想了解一种正在塑造你生活的无形力量吗?我是奥斯瓦尔德·奥西安,长期播客《科技玩意儿》的新主持人之一。我有点怀疑,但也着迷地好奇。我是卡拉·普莱斯,另一位新主持人。我准备尽早且经常地采用它。

在《科技玩意儿》中,我们从刚果的矿山到火星表面,再到TikTok的黑暗角落,一路旅行,提出并试图解答关于技术的迫切问题。在火星生存的一种技巧是住得足够久,以便人们进化成火星人。就像数据是对复杂现实的一种非常粗略的近似。怎么可能

世界的新能源革命可以建立在这个晚上没有电的地方。我和奥兹将消除噪音,为您带来最佳对话和深入探讨,帮助您了解科技如何改变我们的世界,以及您需要了解哪些信息才能在奇点到来时生存下来。所以加入我们吧。在iHeartRadio应用程序、Apple Podcasts或您收听播客的任何地方收听《科技玩意儿》。

嘿,大家好,我是来自《上帝的国度》播客的里德。本周我们邀请到了独一无二的鲍比·博恩斯来到演播室,我们涵盖了他从成长经历到与继父阿肯色州基思的户外经历,再到乡村音乐现状的一切内容。我们甚至可能会在节目结尾由鲍比本人领衔进行一场小型音乐会。大家一定要收听本期《上帝的国度》与鲍比·博恩斯一起在iHeartRadio应用程序、Apple Podcasts或您收听播客的任何地方收听。不要去塔吉特购物。

穿着卡其裤和一件红衬衫不要穿着卡其裤和一件红色polo衫去塔吉特购物这就是你歌曲的权利一位老太太走到我面前她说这碗麦片粥多少钱

嘿,我是亚历克·鲍德温。在本季我的播客《这就是重点》中,我和音乐家、摄影师和慈善家朱利安·列侬进行了交谈。摄影与图像的关系中,对我来说真正重要的事情之一是,我会收到人们写给我的信,那些......

无力承担环游世界或去任何地方旅行的人,或者残疾而无法环游世界或去任何地方旅行的人。他们都对我说,你把这些故事带给我们,你带来真相,你带给我们我们永远不会了解的文化的生命。

摄影确实让我能够做到这一点。我对世界另一端你永远不会遇到的人们充满同情,但你至少会对他们的生活以及他们经历过或仍在经历的事情有所了解。在iHeartRadio应用程序、Apple Podcasts或您收听播客的任何地方收听《这就是重点》的新剧集。

约翰·斯图尔特回到了《每日秀》,他将自己标志性的机智和洞察力直接带到您的耳朵里,通过《每日秀》耳朵版播客。深入了解约翰对政治、娱乐、体育等最重要话题的独特看法。由节目的记者和撰稿人的敏锐声音加入。

通过扩展的采访和独家的每周头条新闻综述,这个播客为您提供您在其他任何地方都找不到的内容。准备好欢笑并保持知情吗?在iHeartRadio应用程序、Apple Podcasts或您收听播客的任何地方收听。所以你可能想知道,这怎么会这么便宜?这是一个非常好的问题。因为我就是我,我有一个假设。

我不相信那些制作这些基础模型的公司,例如OpenAIR和Anthropic,实际上已经受到激励去做更多的事情,用更少的资源。因为他们与亚马逊、谷歌和微软等超大规模公司之间亲密的小型关系几乎完全集中在制作尽可能大、尽可能大的模型上,使用最大、甚至更大的芯片,并且由于缺乏盈利能力并没有阻止他们筹集更多资金,

好吧,他们从来不需要有效率,对吧?他们从来不需要尝试。也许他们应该少买一些鳄梨吐司。让我用更简单的术语来说明。想象一下每月生活费为1500美元,然后想象一下你每月生活费为15万美元,而且你必须像布鲁斯特的百万美元一样,尽可能多地花掉它来完成一项任务,一项非常简单的任务。生活。

在前面的例子中,你关心的是生存。你只有有限的钱,必须让它尽可能地发挥作用,你花的每一美元都需要做出真正的牺牲。如果你想玩得开心,你可能需要少吃点。你吃的一切食物都必须更便宜。你必须量入为出。你必须做出决定,事实上你可能会学习在家做饭。你可能会多走路。你可能会做一些事情来帮助你避免花光所有的钱。

在后一个例子中,你每月有15万美元必须花掉,你会有动力去挥霍,去沉迷于过度消费,去追求这种模糊的生活理念。你的行为并非由任何生存威胁或任何类型的未来规划所决定,而是由你认为是生活机会的任何事物所决定。Open AI和Anthropic是当生存让位于生活时会发生什么的象征。

他们受到了泡沫般的风险投资和公开市场的激励,这些市场渴望下一个大事件,下一个大增长,去构建更大的模型并销售更大的梦想,就像Anthropix的达里奥·阿马代伊说的那样,你的AI,我引用一下,“可能很快就会在几乎所有方面超越几乎所有人类”,在2027年之后不久,我只是想花一秒钟的时间。记者们,如果你在听这个,别再引用这些废话了!

停止!你们什么都没做!你们的工作做得一塌糊涂!每次你引用这些废话,这些胡说八道,在2027年之后不久,这是什么意思?2028年?2029年?2030年?超越人类并在几乎所有方面意味着什么?这玩意儿不管用!这玩意儿不好!哦,我的上帝!无论如何,回到播客,埃德,冷静一下......

OpenAI和Anthropic实际上都是用《模拟人生》里的无限金钱作弊码来生存的。我知道你们中有些人可能会说,顺便说一句,这不是无限金钱,你只是添加,你进入控制台,你明白我的意思。这两家公司每年都在亏损数十亿美元。顺便说一句,赚数十亿美元然后仍然亏损数十亿美元是疯狂的。他们仍然像钱永远不会用完一样运作,因为

它不会。如果他们真的担心这种情况发生,他们肯定会尝试做DeepSeek所做的事情,但他们不必这样做,因为他们两人都有无尽的现金和来自微软、亚马逊或谷歌的GPU。而星门的事情只是......我稍后会提到。长话短说,他们不会投入5000亿美元。高达5000亿美元。我对此太厌倦了。

OpenAI和Anthropic从未被逼到绝境,不像我在录制这段节目的衣橱里一样。他们从乐于刊登他们所发表的任何空洞废话的科技和商业媒体那里获得了无限量的免费营销。这真是令人沮丧。他们随意地筹集资金......顺便说一句,Anthropic目前正在筹集另外20亿美元,公司估值达600亿美元。我认为,这发生在DeepSea事件期间,这真的很有趣。他们所有这些都是基于......的叙事

我们需要比任何公司都需要的钱更多。因为我们正在做的事情必须花费这么多。没有其他办法。你必须给我们更多钱。我的名字是萨姆·奥特曼。我需要比我庞大、美丽的公司赚到的钱还要多,它很糟糕,需要钱来训练它。请帮助我。我庞大、美丽、糟糕的公司正在消亡,但它是历史上最好、最重要的公司。这也是正常的。现在......

我认为他们是否意识到有方法可以提高模型的效率?当然。OpenAI在2023年试图向微软交付一个更高效的模型,名为Arrakis。我相信Anthropic和OpenAI都有专门致力于提高效率的团队,但他们不必这样做,所以他们没有做。

正如我之前在我的通讯中写道的那样,并且在这个播客中也争论过,OpenAI只是在烧钱,并且一直被允许烧钱,直到最近可能还会被允许烧更多的钱,因为每个人,所有美国模型开发者似乎都同意,开发大型语言模型的唯一方法就是使它们尽可能大,并在以后解决诸如盈利或将其转化为有用的东西等麻烦的事情。

我认为,这大概是在AGI发生的时候,他们仍在定义它,更不用说做了。另一方面,DeepSeek必须在受限制的NVIDIA芯片的约束下找到一种方法来开发自己的大型语言模型,这些芯片可以合法地销售到中国。

虽然在中国有一个完整的行业,通过经销商和其他方将受限制的硅片卖到中国,但DeepSeq开发其模型的整个方式表明,它是在应对非常具体的内存带宽限制,这意味着可以输入和输出到芯片中的数据量。本质上,用更少的资源做更多的事情并不是它选择的事情,而是他们必须做的事情。

我已经更深入地讨论了这些模型的技术原理,你可以在我的通讯中阅读到。你也可以去where's your ad,不是ad,它在剧集的结尾。但我也会在节目说明中添加像Ben Thompson的Stratechery文章之类的文章,因为这里有很多东西需要阅读。我知道有一些非常技术性的听众,我相信你们会在我的电子邮件中鞭挞我。请去读一读。我没有错。我也咨询过很多人。顺便说一句,所有这些紧缩措施似乎都奏效了。

还有训练数据的情况以及另一个mea culpa。我之前讨论过模型崩溃的概念,以及如何将合成数据(由生成模型创建的训练数据)馈送到另一个模型中,最终可能会教它坏习惯,这反过来又会破坏模型。但似乎DeepSeq已经成功地使用生成数据训练其模型。

具体来说,我引用GeekWire的John Theroux的话,就像数学一样,正确性是明确的,并且使用,我再次引用,“高效的奖励函数,可以识别哪些新的训练示例实际上会改进模型,避免在冗余数据上浪费计算”。它似乎奏效了。尽管模型崩溃仍然可能发生,但这种方法,即对合成数据的极其精确的使用,与我从我交谈过的LLM开发人员那里听到的一些针对模型崩溃的防御措施一致。

这也是我们不知道确切训练数据的情况,并且它不会否定我之前关于模型崩溃所做的任何论点。现在,我们将看看那里会发生什么,但合成数据可能会在输出是你可以用计算器计算出来的东西时起作用。但是当你进入一些更模糊的东西时,比如书面文本或任何包含分析元素的东西,你可能会遇到一些令人不快的副作用。但我不知道这是否真的会改变这些东西的好坏。

关于DeepSeq从哪里获得数据,也有一些小道消息。Ben Thompson在Stratechery上建议,DeepSeq的模型可能正在提取其他模型的输出,我的意思是让另一个模型,比如Meta的Llama或OpenAI的GPT-4.0(这就是为什么DeepSeq一度将自己标识为ChatGPT),专门输出用于训练DeepSeq部分的内容。这显然违反了这些工具的服务条款,因为OpenAI及其竞争对手更希望你不要使用其技术来创建其下一个竞争对手。

顺便说一句,OpenAI最近据报道发现了证据表明DeepSeek使用了OpenAI的模型来训练其竞争对手。这是来自《金融时报》的消息。虽然它没有提出任何正式指控,但它确实表示,使用ChatGPT来训练竞争模型违反了其服务条款。而特朗普政府、AI和CryptoZar的投资者大卫·萨克斯表示,这种情况可能发生过。虽然他没有提供证据,但我只想说OpenAI说,哦,这有多么可笑,

你在哪里偷我的东西?别偷我的东西。哪里该死的懦弱胆小鬼混蛋婊子该死的什么一群爱哭的婴儿。哦,不,我的剽窃机器被剽窃了,哪里亲吻我的整个屁股,萨姆·奥特曼,你这个小虫子,你这个硅谷的耻辱,你应该为自己许多原因感到羞愧,但这一点尤其如此,哪里

哦,不,你从我这里偷东西。我的剽窃机器需要我从互联网上的每一个艺术家和作家那里偷东西。我们去YouTube转录所有内容并将其输入机器的那件事。那不是偷窃。那很好。但是你使用我们的模型来生成答案,这很不公平。一群婴儿。你们,萨姆几乎价值数十亿美元。他有一辆价值500万美元的汽车。哭吧,你这个小虫子。

就我个人而言,我真心希望OpenAI能指着DeepSeek的鼻子,指控它侵犯知识产权,主要是因为好玩,也因为虚伪的因素。正如我刚才非常清楚地说过的那样,这是一家完全依靠从字面意义上说每个人创作的内容进行大规模工业盗窃而存在的公司。现在他们哭了。我是萨姆·奥特曼。我是一个大婴儿。我弄脏了我的尿布,因为有人从我的剽窃机器里偷东西。亲吻我的屁股。亲吻我的屁股。

这些公司什么都没有。OpenAI什么都没有。他们什么都没有。他们没有下一个产品。没有理由,他们什么都没有。现在他们没有那种令人作呕的理由。过度消费,丑陋的美国创业文化,尽可能多地花钱来打造美国下一个顶级垄断企业。他们应该为自己感到羞愧。他们不应该成为亿万富翁。他们应该贫困潦倒。他们应该向他们偷窃的所有人赔偿。

这只是,看到一些人对此的反应,看到这种仇外心理,但看到OpenAI或Anthropic这样一家公司如此防御,这让我作呕。正如我将在下一集中讨论的那样,我们的时间真的不多了。我认为DeepSeek真的......

我认为这可能是这些公司的末日。我不知道他们在时间上或金钱上还剩下多少,我不确定他们甚至如何筹集资金。但在下一集中,我将深入探讨DeepSeek,并告诉你们他们是如何让美国科技市场陷入恐慌的,以及这对OpenAI、Anthropic及其支持它们的超大规模公司的未来意味着什么。这几天真是太疯狂了。我希望这有所帮助。

星期一,你会了解更多。非常感谢您的收听。我收到的节目支持令人难以置信。我收到的关于Deep Seek的电子邮件,我一直都在努力,好吗?我真的尽力了。这是我能做的最快速度。但我非常高兴能做这个节目,我非常感谢你们所有人。谢谢。

感谢收听《离线更好》。《离线更好》主题曲的编辑和作曲人是马特·奥索夫斯基。您可以在mattosowski.com查看他的更多音乐和音频项目。M-A-T-T-O-S-O-W-S-K-I点com。

您可以通过ez at betteroffline.com给我发送电子邮件,或访问betteroffline.com查找更多播客链接,当然还有我的通讯。我还强烈建议您访问chat.whereisyoured.at访问Discord,并访问r slash betteroffline查看我们的Reddit。非常感谢您的收听。《离线更好》是Cool Zone Media制作的节目。有关Cool Zone Media的更多信息,请访问我们的网站coolzonemedia.com,或在iHeartRadio应用程序、Apple Podcasts或您收听播客的任何地方查看我们。

你想看看未来吗?你想了解一种正在塑造你生活的无形力量吗?你想体验构成我们人类的极限吗?在《科技玩意儿》中,我们从刚果的矿山到火星表面旅行。从与诺贝尔奖获得者的谈话到TikTok的深处。向我们两人提问,是什么使我们成为人类?

关于技术的问题,从高科技到低俗文化,以及介于两者之间的所有内容。加入我们。在iHeartRadio应用程序、Apple Podcasts或您收听播客的任何地方收听《科技玩意儿》。欢迎来到《抉择抉择》,这是一个突破界限、对话坦诚的播客。加入您最喜欢的两位主持人,我,Weezy WTF,和我,Mandy B,我们将深入探讨非传统关系的世界,并探索围绕约会、性、

和爱情的禁忌话题。每周一和周三,我们都邀请您忘记传统父权规范所规定的过时叙事。收听并加入对话。在Black Effect Podcast Network iHeartRadio应用程序、Apple Podcasts或您收听播客的任何地方收听《抉择抉择》。

我们想大声疾呼,我们希望这种情况停止。哇,非常有力。我是埃莉·弗林,一名调查记者,这是我深入成人娱乐业的旅程。我真的很想在我的成年生活中成为花花公子。他说,我会带你到顶峰,我会让你成为明星。揭露一名所谓的掠食者和他工作的腐败行业。老实说,这比我预期的要糟糕得多。与他相比,我们是一支军队。

从小说中,在iHeartRadio应用程序、Apple Podcasts或您收听播客的任何地方收听《兔子的陷阱》。未经审查的母亲OG们回来了,比以往任何时候都更糟糕。我是埃里卡。我是米拉。我们是《好妈妈坏选择》播客的主持人,由Black Effect Podcast Network每周三推出。是的,我们是妈妈,但不是你的妈妈。历史上,男人说得太多

了。而女人则默默地听着。所有这些都将在这里停止。如果你喜欢诙谐的女人,那么这就是你的部落。每周三在Black Effect Podcast Network、iHeartRadio应用程序、Apple Podcasts或您收听播客的任何地方收听《好妈妈坏选择》播客。

What The Hell Is DeepSeek? 32:40 Share

Better Offline

Deep Dive

Shownotes Transcript

What The Hell Is DeepSeek?