We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Just How Good is Grok-3?

2025/2/18

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive AI Chapters Transcript

People

Andrej Karpathy

Andrew Bosworth

Aravind Srinivas

Brett Taylor

Ethan Malek

Ethan Mollick

No available information on Ethan Mollick.

Gavin Baker

Jimmy Apples

Siki Chen

无

无发言人

Topics

Aravind Srinivas: 我认为知识应该普及且有用，不应被高昂的订阅计划所限制。Perplexity的深度研究工具致力于以更低的价格提供服务，这得益于开源技术的支持。我们希望让更多人能够访问和利用这些工具，而不是让它们成为少数企业盈利的手段。 Siki Chen: 我认为，在拥有完整的模型推理能力之前，任何公司都无法构建比OpenAI更好的深度研究工具。原始的模型推理能力至关重要。尽管如此，从消费者的角度来看，更多的选择总是好的，我很高兴看到这个领域的竞争。

Deep Dive

Chapters

Perplexity launched its own version of Deep Research, a tool similar to OpenAI's, but at a significantly lower price point. While some claim Perplexity's version is as good as or better than OpenAI's, others argue that OpenAI's superior model reasoning capability remains unmatched.

Perplexity offers Deep Research at a fraction of OpenAI's price.
Perplexity's Deep Research uses agentic web search and iterative reasoning.
User opinions on which tool is superior are divided.

Shownotes Transcript

今天在AI每日简报中，Grok 3开启了看起来像是模型更新季的序幕。在此之前，头条新闻是Perplexity推出了他们自己的深度研究版本。AI每日简报是一个关于AI最重要新闻和讨论的每日播客和视频。要加入讨论，请关注我们节目说明中的Discord链接。♪

OpenAI的深度研究是许多人最近获得的更令人兴奋的产品之一。事实上，如果你去Twitter或X，你会发现人们说这是他们几年来见过的最令人印象深刻的产品。然而，它背后是一个极其昂贵的付费墙。

目前，只有那些支付OpenAI 200美元专业版的人才能访问深度研究。然后Perplexity推出了他们自己的深度研究版本，事实上名称相同，这表明他们试图将其仅仅作为一个AI使用类别，如聊天机器人。而且它绝对碾压了OpenAI的价格点。

免费用户每天有五个查询，而专业用户每天最多可以进行500个查询，并且可以访问更快的速度。当被问及该公司如何以这个价格提供此工具时，首席执行官Aravind Srinivas表示，“……感谢开源，我们将继续使其更快更便宜。知识应该是普遍可访问和有用的，而不是隐藏在极其昂贵的订阅计划背后，这些计划有利于企业，但不利于人类。”

所以，是的，如果你想知道，鉴于这种特定定位的侵略性，Sam Altman现在正受到来自下和上的攻击。Perplexity的深度研究的工作方式与竞争对手的工具非常相似，它结合了自主网络搜索和迭代推理来生成深入的研究报告。他们分享了一堆基准测试，但老实说，我认为对于这种类型的产品，一切都是关于它实际的性能。为此，你只需要自己去检查一下，谢天谢地你可以做到，因为他们甚至为免费用户提供了每天一定数量的查询。

一位用户要求Perplexity将自己与竞争对手的深度研究功能进行比较，最终产生了一份多页分析报告，总结如下：Perplexity AI在速度和对休闲研究人员的可访问性方面表现出色。OpenAI在企业应用的分析深度方面占据主导地位。谷歌与现有的生产力生态系统最无缝地集成，老实说，这似乎是一个相当不错的报告和总结。

现在，如果你浏览互联网，你会发现一些人说Perplexity的工具版本和OpenAI的一样好，甚至更好。但你也会看到很多像Siki Chen这样的情绪，他写道：“除非你拥有完整的O3或四核四代或类似的东西，否则你根本无法构建比OpenAI更好的深度研究。这是一个用例，其中原始模型推理能力非常重要。尽管如此，从消费者的角度来看，更多的选择显然是一件好事。很高兴在这个领域看到一些竞争。”

接下来，关于OpenAI前联合创始人Ilya Sutskever的更新，他正在为他的新公司Safe Superintelligence再次筹集资金。

之前的报道称Ilya以200亿美元的估值筹集了约10亿美元，现在看来估值已经上升到300亿美元以上。彭博社报道称，Greenoaks Capital Partners将领导此轮融资，并计划投资约一半资金。我们仍然不知道，最初50亿美元估值的更新是否反映了Ilya向投资者展示的新内容，或者仅仅是市场认为必须为任何Ilya产品支付的溢价。

现在，虽然像Perplexity这样的初创公司正在快速发展，但不要指望下一代AI家用助手很快就会出现，因为大型科技公司正在苦苦挣扎。Alexa和Siri都遭遇了另一轮延迟。最近有报道称将举行Alexa AI活动，人们对此感到兴奋。但在上周的最后一分钟“是否继续”会议上，亚马逊的高管们显然决定“不继续”。《华盛顿邮报》现在报道称，AI Alexa要到3月31日或更晚才会准备好。

据报道，延迟是由于Alexa给出不准确的答案，这已经成为这个开发周期的祸害。苹果的AI Siri升级也在面临延迟，此前该计划早在去年6月WWDC上首次公布。彭博社报道称，该项目面临工程问题和软件错误，并且苹果公司正在“冲刺冲向终点线”，但计划在4月份推出的部分功能可能会推迟到5月份甚至更晚。

其中一件事突显出的是，对于这类智能家居设备而言，AI幻觉和错误答案的误差幅度和消费者容忍度基本上为零。在社交媒体上发现自己处于某些病毒式剪辑的错误一端的风险非常高，这使得这些产品的推出成为一个真正的挑战。

最后，Meta显然计划对人形机器人进行大规模投资。该公司将在其Reality Labs硬件部门（发布了Meta Ray-Bans和MetaQuest的部门）内成立一个新的团队。新计划是开发Meta用于人形机器人的硬件，这些机器人旨在完成家务，最初重点是开发供第三方初创公司使用的传感器。

在一份泄露的内部备忘录中，Meta的首席技术官Andrew Bosworth表示，“我们已经在Reality Labs和AI领域投资并构建的核心技术与开发机器人技术所需的进步相辅相成。我们相信，扩大我们的投资组合以投资这个领域只会增加Meta AI以及我们的混合现实和增强现实计划的价值。我认为我们现在还为时尚早，但你将在今年及未来几年看到更多机器人技术和AI的交叉。”

不过，就目前而言，这就是今天的AI每日简报头条新闻版的内容。接下来是主要内容。今天的节目由Vanta赞助。信任不仅仅是赢得的，更是被要求的。无论你是正在进行第一次审计的初创公司创始人，还是经验丰富的安全专业人员正在扩展你的GRC计划，证明你对安全的承诺从未像现在这样重要或复杂。这就是Vanta的用武之地。

企业使用Vanta通过自动化合规需求来建立信任，这些需求涵盖35多个框架，例如SOC 2和ISO 27001。集中的安全工作流程可以将问卷调查完成速度提高5倍，并主动管理供应商风险。Vanta可以帮助你启动或扩展你的安全计划，通过将你与审计员和专家联系起来，快速进行审计并建立你的安全计划。此外，由于平台中使用了自动化和AI，Vanta可以为你节省时间，让你可以专注于发展你的公司。

加入超过9000家全球公司，例如Atlassian、Quora和Factory，他们使用Vantage实时管理风险并证明安全性。

在有限的时间内，本观众可以获得Vanta的1000美元折扣，网址为vanta.com/nlw。网址是v-a-n-t-a.com/nlw，可享受1000美元的折扣。如果2025年AI有一件事是明确的，那就是代理正在到来。垂直代理购买行业水平代理平台。

每个功能的代理。如果你正在运营一家大型企业，你明年将尝试使用代理。鉴于这是新事物，我们所有人都会回到试点模式。这就是

这就是Superintelligent今年年初提供新产品的原因。这是一个代理准备和机会审计。在短短几周内，我们将与你的团队深入探讨，了解哪些类型的代理适合你进行测试，你需要哪些类型的基础设施支持才能做好准备，并最终获得一套可操作的建议，帮助你做好准备，了解代理如何改变你的业务。

如果你对代理准备和机会审计感兴趣，请直接联系我，[email protected]。在主题行中输入“agent”一词，以便我知道你在说什么。让我们让你成为AI市场最具活力部分的领导者。嘿，听众们，想用AI增强你的业务吗？

在我们快节奏的世界中，拥有一个可靠的AI计划可以产生巨大的影响。使组织能够创造新的价值、发展壮大并保持竞争优势，这就是一切的核心。KPMG在这里帮助你制定真正有效的AI战略。不要等待，现在是领先的时候了。查看KPMG的真实案例，了解AI如何帮助其客户取得成功，网址为kpmg.us/AI。再次强调，网址是www.kpmg.us/AI。

现在，回到节目。欢迎回到AI每日简报。今天，我们将深入探讨始终引人入胜的模型竞争主题。具体来说，Elon Musk的XAI发布了他们期待已久的旗舰模型Grok 3。事实上，此次发布揭开了围绕Grok 3架构构建的一系列模型。

旗舰模型与OpenAI的GPT-4.0竞争，但还有一个为速度设计的迷你版本。该公司还将很快发布每个尺寸的推理版本模型。例如，用户将能够使用名为“大脑模式”的功能来增加更困难查询的推理时间。XAI还引入了一种名为Deep Search的模式。

DeepSearch使用一种基本的代理形式来搜索网络和Twitter/X帖子以编译长篇报告，显然现在与OpenAI的深度研究工作方式类似。根据公告，还将推出语音模式，大约一周后推出。Grok 3首先提供给X上的高级Plus订阅者，但M1 Astra和Apple Insider也声称XAI将推出Grok Pro套餐，每月30美元或每年300美元。

似乎可能需要订阅才能使用高级功能，例如深度搜索语音模式和大容量模式。现在，随着这些新模型上线，Elon宣布Grok 2将在未来几个月内开源。他说：“我们的总体方法是在下一个版本完全发布时开源最后一个版本。当Grok 3成熟稳定时，这可能在几个月内，我们将开源Grok 2。”Sam Altman也表示他考虑对OpenAI的旧模型做同样的事情，所以这可能成为新的规范。

现在，Grok 3备受期待的原因之一是它是第一个在更大规模的数据中心上进行训练的模型。上个月，Elon声称该模型使用的是Grok 2的10倍计算量进行训练，这当然是通过Colossus超级集群实现的，这是第一个能够联网10万个NVIDIA H100的训练集群。因此，Grok 3被视为对预训练缩放是否已在上一代模型中达到瓶颈的首次真正测试。

当然，与每次发布一样，人们都在仔细研究基准测试。在数学、科学和编码基准测试方面，Grok 3 Mini达到了与Gemini 2.0 Pro和DeepSeek v3的同等水平，而全尺寸Grok模型（当然，这是根据XAI自身的说法）在每次测试中都以明显的优势胜出。需要注意的是，这只是将领先的非推理模型与Grok 3进行比较，Grok 3在这些测试中的性能不如OpenAI的O3 Mini。

对于推理模型，Grok 3的两种尺寸似乎在低推理设置下与O1具有相当的竞争力，并且在高推理设置下优于03 Mini。这意味着Grok 3的推理版本与全尺寸O3不在同一水平上。鉴于我们目前无法访问这两个模型，我们无法确定。XAI指出，Grok 3推理仍处于测试阶段，在完全发布之前将进行进一步的后期训练。

预训练缩放并没有带来巨大的提升，但收益确实存在。Ethan Malek教授写道：“本质上，Grok 3并没有否定这些缩放定律，但也可能表明需要更大得多的训练集群才能看到改变范式的改进。”

许多人注意到的一个基准测试是Chatbot Arena，用户在其中投票选择他们更喜欢的AI输出。虽然该指标本质上是主观的，但它可以让我们了解模型在市场上的表现。投资者Gavin Baker写道：“Grok3是有史以来第一个在Chatbot Arena上得分超过1400的模型，并且优于OpenAI和谷歌提供的最佳公开推理模型。”

XAI成立于DeepMind 13年后和OpenAI 8年后，现在已经领先于两者。“AI实验室的SR71黑鸟”。当然，Baker随后指出，作为XAI的投资者，他有点偏见。AI Breakfast写道：“对于普通用户来说，聊天机器人竞技场是唯一重要的基准。Grok 3正式成为最佳LLM。鉴于XAI实现这一目标的速度，他们只会随着时间的推移而扩大差距。”Andrej Karpathy给出了更完整的评论。

尽管Karpathy是OpenAI的联合创始人，但鉴于他今天缺乏从属关系和他拥有的普遍信誉，大多数人认为他的观点是公正的。他在X上写了一篇长篇评论，说道：“我今天早些时候获得了Grok 3的早期访问权限，我认为我是最早能够快速进行氛围检查的少数人之一。”他进行了长篇评论，分享了他关于思考的一些测试，探索深度搜索功能，尝试一堆随机的LLM陷阱，

最终，他得出了这样的结论。他写道：“Grok 3加上思考感觉有点像OpenAI最强模型的最新技术水平，所以一个专业版每月200美元，略好于DeepSeek R1和Gemini 2.0闪速思考，考虑到该团队大约一年前从零开始，这真是令人难以置信。达到最新技术水平的时间尺度是前所未有的。”

还要记住注意事项。模型是随机的，每次可能会给出略微不同的答案，而且还处于早期阶段。因此，我们必须等待在接下来的几天到几周内进行更多评估。早期的LLM竞技场结果确实看起来相当令人鼓舞。目前，祝贺XAI团队。他们显然拥有巨大的速度和动力。现在，围绕Grok 3发布的更大背景是Elon和Sam Altman之间持续存在的争端。

事实上，这很难报道。Elon尤其比以往任何时候都更具争议性，而且很难找到能够将他们对Elon的总体看法与他们对任何他接触的事物的评论区分开来的人。Gary Mark总结了这对竞争意味着什么，

我认为这也能反映出其他人的想法。他写道：

Open AI泄密者Jimmy Apples写道：“强大的模型，主要在于他们赶上的速度。我认为它达到了预期，强大的产品，物有所值。”然后他催促Sam Altman发布4.5版，我们知道这很快就会到来。当天早些时候，当有人告诉他当天发布4.5版来抢占风头时，Altman写道：“那不太好，……”

对我来说，真正突出的一件事是这些基准测试是多么饱和，以及当新的模型出现时，我发现自己对它们的吸引力有多小。

Ethan Mollick再次谈到了这一点，他写道：“Grok3突显的另一件事是对更好的测试电池和独立测试机构的迫切需求。公共基准测试既平庸又饱和，使得许多AI测试都像食品评论一样，基于口味。如果AI对工作至关重要，我们需要更多。他继续说道，而且我完全同意这一点，“我很惊讶没有大型IT咨询公司甚至国家标准机构介入进行大规模的私人测试。”

尤其是在投资了数千亿美元的情况下。这是一个非常重要的问题。最终，对于绝大多数用户来说，他们在这些基准测试中的表现并不重要。重要的是他们在实际工作环境中的表现。说到OpenAI和Elon的争斗，OpenAI董事会现在正式拒绝了Elon以970亿美元收购这家非营利组织的出价。董事会一致投票决定，此次收购“不符合OpenAI使命的最佳利益”。

董事长Brett Taylor在一份声明中表示：“OpenAI不出售，董事会一致否决了Musk先生破坏其竞争的最新尝试。OpenAI的任何潜在重组都将加强我们的非营利组织及其确保AGI造福全人类的使命。”OpenAI的律师坚持认为，Musk的出价并没有设定非营利组织的价格，这将在转换为营利性公司期间需要支付。

此外，《金融时报》报道称，该公司正在考虑授予非营利组织董事会特别投票权，以确保他们不会成为Musk在营利性转换后恶意收购的目标。

与此同时，XAI本身正在寻求另一轮融资。彭博社报道称，该公司正寻求以750亿美元的估值筹集100亿美元资金，消息人士称，包括红杉资本、Andreessen Horowitz和Valor Equity Partners在内的现有投资者都参与了谈判，这些谈判仍处于早期阶段。新的资金很大一部分似乎将用于升级XAI数据中心的芯片。周五，彭博社报道称，该公司即将与戴尔达成50亿美元的协议，以提供由NVIDIA的Blackwell GB200芯片驱动的服务器。

最终，朋友们，我们要做的就是实践出真知。在接下来的几周里，许多人将测试Grok 3，并看看它与最新的ChatGPT和云模型相比如何。但对我来说，这感觉像是模型更新季的开始，而不是结束，Anthropic和OpenAI都承诺很快就会推出新模型。因此，我们很快就会有很多新的发展，这显然对我们所有用户来说都是一件好事。不过，就目前而言，这就是今天的AI每日简报。下次再见，和平。

Just How Good is Grok-3? 16:31 Share

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

Deep Dive

Shownotes Transcript

Just How Good is Grok-3?