We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

历时18个月的复仇马斯克带着Grok 3砸场子？

2025/2/19

涨乐早知道

AI Deep Dive AI Chapters Transcript

People

播

播音员

主持著名true crime播客《Crime Junkie》的播音员和创始人。

Topics

播音员：Grok3在多项测试中得分超过了包括ChatGPT在内的竞争对手，这其中包含了马斯克与OpenAI之间长期的竞争和恩怨。马斯克曾是OpenAI的早期投资者，但在2018年由于理念不合而分道扬镳。ChatGPT-4的成功发布更激化了这种矛盾。Grok3的发布被看作是马斯克对OpenAI的回应，旨在挑战其在AI领域的主导地位。然而，Grok3的实际性能和领先优势仍存在争议。虽然Grok3在某些基准测试中得分超过1400分，但这其中可能存在数据操纵的嫌疑，其与其他领先模型的实际差距可能很小。此外，Grok3在一些基础问题上的表现也不尽如人意，例如在一些简单的数学和物理问题上出现错误。 Grok3的成功很大程度上依赖于XAI公司巨大的算力投入，其训练所消耗的算力远超其他竞争对手。但这并不意味着Grok3的性能提升与算力投入成正比，甚至可以说性价比不高。目前，Grok3的市场份额远低于ChatGPT，其可靠性和实用性还有待进一步验证。总而言之，Grok3的出现确实给AI领域带来了新的竞争，但其是否能够真正超越OpenAI和ChatGPT，还需要时间和市场的检验。目前来看，Grok3的领先优势被夸大，其成功更多的是依靠巨大的资金投入和算力优势，而不是技术上的绝对突破。

Deep Dive

Shownotes Transcript

请不吝点赞订阅转发打赏支持明镜与点点栏目

今天和大家聊聊 Grak3 大模型 2 月 18 日马斯克与 XAI 团队在直播中正式发布了 Grak 最新版本 Grak3Grak3 和 Grak3 mini 在多方面的测试得分上都超过或 P.me 及 miniDeepSig 和 ChatGPT 等对手 Grak3 发布之后马斯克还专门发了条推特把 OpenAI 拎出来打脸这其中还有一段陈年旧愿

马斯克曾是 OpenAI 的天使投资人甚至 Open 这个关键词就是马斯克绑起名的但在 2018 年奥特曼与马斯克在开源还是闭源的问题上彻底决裂在 2022 年末 ChatGPT-4 横空出世后马斯克已经被踢出了这么一个跨时代项目之后的马斯克怨念报表开始碎碎念了看来不怕分手就怕前任过得好这句话反映的是人性的共通首富也不例外

话说回来 Guard 3 真的这么强吗足以支撑马斯克对 OpenAI 的复仇

其实说 GRAC3 是目前最强大模型也是有依据的 GRAC3 在基准测试中得分超过 1400 也就是这一榜单首次出现超过 1400 分的机座模型并且 GRAC3 在总体控制、编码、数学、创意写作、指令遵循、长指令提问、多轮等机座模型的所有评测类别上都是第一

官方称,GRAC3 还在不断更新中,每天每小时都在改进,今天给大家演示的模型版本就比送去评测的版本更先进。同时,最佳的预训练模型显然不够,GRAC3 还可以像人类一样思考、反思、验证、回到第一性原理再思考等,具备了强大的推理能力。

虽然说马斯克的复仇很符合爽文但是凭什么 2023 年 7 月才成立的 XAI 把 OpenAI 干翻了而且 OpenAI 还是有 CheckGPT 这样的跨时代产品在前

马斯克的路数很简单大力出奇迹想要玩到超车最简单粗暴的法子就是课金没追上就是课的还不够 XAI 用了 122 天在田纳西州孟非斯建了一座堪比算力核电站的数据中心

10 万块英伟达 H100GPU 组成的集群让 Gregg3 的训练速度比前代提升 10 倍建成了 10 万显卡集群再过了 92 天后建成了 20 万张 H100 显卡集群这是世界上最大的 H100 三粒集群

Gregg3 的出现会让 AI 赛道变天吗?其实 Gregg3 还没这么硬的实力以均突起成功逆袭把 ChatGPT 远远甩在身后那是爽文不是现实还得让子弹飞一会儿才行先说 Gregg3 本身的问题 Gregg3 领先有限远远达不到断层式

在那个用来刁难大模型的经典问题 9.11 与 9.9 哪个大上 Gregson 也栽了跟头一些基础的物理数学问题也被发现无法应对甚至在 XAI 发布会直播中马斯克演示的过程中 Gregson 给出的对应答案有不少都是错误的

而且现在第一梯队的大模型在基准测试中跑分基本都能达到 1300 分之上只不过还并未突破 1400 而 GRAK3 在 PPT 图表中显示的断层式领先只不过是做图技巧横坐标从 1300 起让差距看起来很大相当于用高倍放大镜在观察

而实际的模型跑分结果,Grak3 其实也只比 DeepSync R1 以及 GPT 4.0 实现了不到 1%至 2%的差距。这样的差距能用数字体现,但在人为感受时很难体现,和用户实测中并无明显差距的评价吻合。

另外外界也有对 GREG3 空分的质疑毕竟 XAI 是有这方面前科的在 GREG2 时代就有在这个榜单中刷分因此经常被业内人士诟病再说性价比相比 GREG3 在算力上的投资它收获的性能提升简直令人无语甚至说 GREG3 是在试探大模型算力编辑效应的极限

对比了使用 2000 张 H800 训练两个月得出的 DeepSick V3 计算出 GRAC3 其实际的训练算力消耗是 DeepSick V3 的 263 倍而 DeepSick V3 在大模型基准测试榜单上与得分 1402 分的 GRAC3 的差距

甚至还不到 100 分而已即使和自己的上一版本相比进步也不大去年发布的 Grak2 模型在 Arena 测试中得分为 1280 分与 Grak2 相比 Grak3 早期版本的性能提升了近 10%而这两者间差了 10 万块英伟达 H100GPU 真正一倍的算力

目前 GRAG 大模型在人工智能领域仍是一个小角色它的受欢迎程度远不及 ChatGPT 等竞争对手截至 2024 年 11 月 ChatGPT 占据了人工智能工具市场份额的 62.5%没有明显差距可靠性还待验证的 GRAG3 目前还很难取代 ChatGPT

AI 竞争白热化,为了抢占,马斯克略显仓促地拿出了 GREG3 但 GREG3 的潜力还待挖掘,算力并没有被充分利用目前限制大模型性能的是训练数据,这点是行业需要共同面对的问题 GREG3 能不能再突破还需要时间的检验

以上就是今天掌乐全球通掌乐早知道的全部内容期待为你带来醒目的一天祝您在投资中有所斩获我们明早再见

历时18个月的复仇 马斯克带着Grok 3砸场子？ 06:15 Share

涨乐早知道

Deep Dive

Shownotes Transcript

历时18个月的复仇马斯克带着Grok 3砸场子？