欢迎收听AI Chat播客。今天的播客,我们将讨论来自Grok,也就是XAI的一些最新消息。OpenAI和埃隆·马斯克、Simon和Grok之间发生了一大堆冲突,诸如此类。今天,新的旗舰模型Grok 3刚刚发布。实际上,我昨晚熬夜观看了直播。它非常有趣,他们公布了一系列新指标,这些指标几乎让Grok 3胜过了ChatGPT。
以及所有其他模型,并非以惊人的优势,而是以一些显著的数字。我将对所有这些进行分解,并向您展示一个现场演示,因为我拥有XAI高级版或使用Grok 3所需的任何东西。因此,我将分解
所有这些。在我们进入正题之前,我想提一下,如果您曾经想过要创办在线业务或使用AI工具来发展和扩展您目前的公司,我有一个名为AI Hustle的独家学校社区,在那里我每周都会录制视频。
这些视频是我在其他任何地方都没有发布的视频,它们基本上向您展示了我用来发展和扩展我的公司以及我正在做的各种副业的AI工具。我的联合主持人Jamie去年通过亚马逊的副业赚取了超过25,000美元。他今年正在使用AI来扩大规模。我们与课堂部分中的数十个其他视频一起对这些内容进行了分解,超过300名成员都在讨论和分享他们的想法。所以我很乐意让你成为社区的一员。每月19美元。
过去,我们将其定价为100美元,所以现在正在打折,如果您锁定这个价格,就不会再涨价了。但是如果您想查看链接,链接在描述中,我很乐意帮助您使用AI将您的业务提升到一个新的水平。好了,让我们进入正题。那么Grok发生了什么?当然,这是最新的旗舰模型。他们昨晚进行了整个直播,好吧,这只是一个旁枝,但是每当他们进行这些直播时,他们总是说会在特定时间开始。我注意到埃隆·马斯克和他的所有公司,以及……
对于特斯拉的直播,我知道他们遇到了一些问题,但我等了50分钟才开始直播。对于这次直播,我认为我只比他们实际所说的开始时间多等了20分钟,但这总是让我抓狂。我必须说,这可能是一个不错的营销策略,因为直播的观看人数从10万增加到20万,再到40万。20分钟后,有100万人观看这场甚至还没有
开始的直播。所以我想也许其中涉及某种营销策略。但无论如何,这是我对整个事情的唯一批评。所以这件事真的很令人印象深刻。许多新的功能。我认为他们稍微推迟发布的一个重要功能是获得推理和一些深度学习模型。当然,当DeepSeek出现并彻底席卷整个领域时,例如
OpenAI和谷歌Gemini都在短短两周内迅速发布了他们自己对推理模型和深度研究模型的更新。因此,Grok显然无法在没有其他顶级参与者的参与下发布。所以他们也发布了这个,这非常有趣。现在,如果您访问grok.com或移动应用程序,这两个地方是首先更新的地方,您将看到
一个下拉菜单,您可以切换到Grok 3。这是他们的最新模型,他们有一个名为“Think”的功能。我相信他们稍后会发布他们的深度研究。但我今天实际上正在测试Grok 3,我承认我的结果喜忧参半。现在,如果我的历史记录在这里,我会向您展示它做了一些非常令人印象深刻的事情。所以我想,我必须测试一下。今天早上我去了沃尔玛,为我的车买一些新东西,因为
我妻子昨晚因为我们的卡车上的一个刹车灯坏了而被拦下。所以,对她来说是一次创伤性的经历。这实际上是她一生中第一次被拦下,这很有趣,因为她开的是我的卡车。所以,你知道,就是这样。所以我正在测试它,我问它,什么样的,你知道,我的卡车挡风玻璃雨刮器需要什么样的刀片?
它告诉我,我想,我只是相信它所说的任何话。我想,它说对于2006年的丰田坦途,你需要19英寸的挡风玻璃雨刮器刀片。好吧。我信以为真。你猜怎么着?它骗了我。我买了它们。我回到车里。它们太短了。我需要26英寸的。所以这东西在这方面绝对是错误的。令人恼火的是,我想,当我还在商店里的时候,所以我实际上也问它……
我需要的灯泡是什么样的。我想,我需要什么样的刹车灯泡?它给了我一个。当我还在商店里的时候,我有点怀疑,因为那里有一个随机的灯泡上写着7443。我想,我不知道。所以我用谷歌搜索了一下,它是对的。我想,好吧,灯泡是对的,刀片可能也是对的。哦,天哪,我选错了要在谷歌上验证的一个。所以事实证明,我需要回去买不同的刀片。好吧,我认为这方面相当令人印象深刻的是,
首先,我想,我有这辆卡车。我需要什么样的刀片?然后我只是说,我需要什么样的刹车灯?它自动跳到了假设。它就像,我假设你指的是你刚才提到的那辆卡车。所以你需要这个。它告诉我灯泡类型。它还告诉我需要寻找的瓦数和电压,这太棒了。
非常有用。然后还告诉我,你看,你可能想买两个,因为乘客侧的也需要。它还会告诉我常见的品牌,这很有用,因为我认为我最终买了一个飞利浦的,而且因为它的说法,我知道它可能是对的。无论如何,然后它会给我提供很多其他信息,例如,如果你想更换它,这些是你想要更换它的所有步骤。这很酷,因为这些都不是我问的问题。我只是想,什么
什么灯泡我需要它?你知道,猜猜是什么样的卡车,因为我的上一个问题。然后它就像,如果你这样做,你可能想改变它。这是改变它的步骤。所以,就像,
我想我可以把我的提示改成,只告诉我灯泡的名称,没有其他信息。我可能可以得到更快的回应。但对我来说,作为一个实际使用它的人,获得所有这些额外的细节非常有用。顺便说一句,如果你只是在苹果设备上收听,我正在解释一切。但如果你在Spotify或YouTube上,我正在分解这个并分享我的屏幕视频来分解所有内容。所以无论如何,我想给你一个我实际测试这个东西的例子,这样你就知道了。
嗯,我还用它做了一件事,我试图上传图像并在沃尔玛寻求帮助。有两种不同的挡风玻璃雨刮器。我从来不知道这些公司是否在欺骗我,任何汽车修理方面的事情。我发誓那里有一个噱头。所以有两种来自同一品牌的挡风玻璃雨刮器。一个大约15美元,一个大约7美元。一个10美元。
最佳加。我想,实际上它们之间有什么区别吗?Grok是一个非常好的推销员,它告诉我,显然其中一个在整个刀片上都有相同的压力,而且不太容易损坏,等等。所以我最终买了更贵的那一个,因为Grok告诉我它很好。但我的意思是,它很有用。能够在我的手机上在沃尔玛拍一张照片,让它上传,这很酷。然后它实际上非常快。我认为沃尔玛的互联网速度并不快。所以无论如何,
总之,这是我对Grok的实际用例测试。让我们来看看更新的内容以及为什么我认为这是一件令人印象深刻的事情。你们可能都厌倦了,好吧,关于你愚蠢的沃尔玛汽车之旅已经足够了。这东西到底能做什么?所以我会为你分解所有这些。所以。
首先真正令人印象深刻的是他们是如何训练它的。他们说他们想从第一性原理开始,这是XAI一直擅长的事情。他们基本上去了,他们就像,嘿,我们必须建立一个设施来拥有足够的GPU来训练这个AI模型。所以他们去找所有能够建造这些数据中心公司的人,他们就像,是的,我们可以为你建造一个数据中心,这需要我们大约24个月的时间,他们就像,好吧,我们会完蛋的,因为24个月后我们肯定会,那是两年,如果这就是建造数据中心需要的时间,那么我们还需要在上面进行训练,那么两年后ChatGPT会是什么样子呢?他们会被彻底击败,所以他们说去他的,我们直接买一个预制工厂,所以这不是为数据中心建造的东西,他们真的去找到了一个我认为像一个
他们说他们必须找到一个足够新的工厂,它仍然很好,但有人刚刚倒闭了,这有点难。无论如何,他们找到了一家刚刚倒闭或搬迁的电力公司。他们拿走了他们的工厂。它不够大。所以我认为他们实际上不得不扩建它,但他们拿走了它,他们正在尽一切办法,试图基本上,嗯,
黑客攻击并让这个东西更快地建成。所以他们,他们,他们首先要做的是他们想安装十万个GPU。每个人都说这是不可能的,有一些工程壮举。他们做了一些疯狂的事情。他们能够连接十万个GPU,在训练进行到一半的时候,他们能够,我认为这花了他们大约120天,三个月,在训练进行到一半的时候,他们又增加了十万个GPU,嗯,这就像
又花了他们90天的时间。所以实际上,三到六个月的时间让整个事情都运行起来了。人们会说,你怎么搞到这个不是为数据中心建造的工厂?因为数据中心由于许多不同的原因而臭名昭著。首先,绝对的电力消耗大户,例如20万个GPU。当你想到GPU时,这可不是你电脑里的小东西。就像你在说一块砖,就像这个巨大的东西。
笨重的东西。而20万个这样的东西就是一个完全的电力消耗大户。此外,冷却这么多的GPU简直是疯狂。所以他们说他们最终做的是,他们没有足够的电网电力。他们正在连接它。与此同时,他们只是购买了成千上万的发生器,并将它们排成一行放在工厂的整个一侧,让所有这些发生器都运转起来。在工厂的另一侧,他们说他们实际上购买了美国整个远程冷却能力的25%。所以基本上就像这些卡车,所有这些都必须是液冷的。所以他们就像水通过管道循环通过。所以人们有卡车来做大型活动或音乐会或类似事情的液体冷却。
但是没有那么多。他们实际上必须获得美国整个产能的25%。我相信这可能是一个非常好的行业,可以冷却整个东西。他们说他们在电缆方面遇到了很多问题,因为他们所做的不同之处在于他们实际上将所有20万个GPU连接在一起。他们必须使冗余,以便如果一根电缆被拔出或一个出现问题,那么所有其他电缆将继续工作。他们能够实现很多真正令人印象深刻的事情。
所有这一切都是为了说明Grok 3,他们目前的模型,其训练计算量是早期版本Grok 2的10倍。它可能是任何AI模型中使用计算量最大、最多的一次。那么结果是什么呢?我知道你一开始听到我说它告诉我雨刮器的长度错了之类的事情,ChatGPT或任何其他模型也可能做到这一点。我会去研究……
为什么是这样。但总的来说,我问过这个并测试过的其他问题,它非常彻底。它非常深入。它向你展示它的推理过程。它可以做很多非常令人印象深刻的事情。那么基准测试呢?它实际上是如何执行的呢?
对于数学基准测试,数学目标24,它的得分是52。Grok Mini,这是他们的较小版本,是40。这非常令人印象深刻。唯一接近的模型是Claude,大约39。那是……
仍然比他们的迷你模型差。它仍然完全击败了GPT 4.0,我认为它的得分最差。和DeepSeek。所以Gemini,我想,也做得相当不错。无论如何,他们在数学方面以很大的优势击败了所有人,52分。然后是科学,他们的得分是75,下一个是65。许多模型的得分都是65。所以他们领先了10分。然后在编码方面,他们再次完全碾压,在编码方面得分52。而下一个不是来自Grok的最佳模型是40。所以他们在数学、科学和编码方面真的,真的碾压了。而且似乎ChatGPT,我从很多人那里听说过,臭名昭著的是
在这个领域有点挣扎。Claude做得很好。我交谈过的大多数开发人员都使用Claude,即使他们很久没有更新了,因为他们只是说它在编码方面更好。所以有时你会发现这些模型有更好的训练数据或训练得更好或微调得更好的用例。现在看来Grok可能是代码方面的赢家。所以在昨晚我观看的直播中,他们真的有它。他们说,
为我们构建一个介于宝石迷阵和俄罗斯方块之间的游戏,它实际上编写了所有代码,他们运行了它,它是一个实际运行的游戏,你拥有俄罗斯方块方块,每个东西都是不同的颜色,如果你连续得到三个,它就会像宝石迷阵一样,它会摧毁线条或方块或其他东西,所以这很有趣,它能够很快地吐出来,所以……
这非常令人印象深刻。推理,测试时间计算,它碾压了它。你基本上可以告诉它,花更长的时间思考这个提示。如果你把它放在你的提示中,你也可以使用一个按钮。如果你告诉它思考更长的时间,它会将它的响应从大约
78提高到93。所以如果你告诉它使用更多的计算,花更长的时间思考这个问题。我们对Chat GPT也进行了一些类似的实验,结果相似。但是如果你告诉它思考更长的时间并使用更多的计算,它基本上会尝试解决相同的问题10次、15次或100次。然后它就像,所有100次的结果的平均值是多少?所以如果我说,我的卡车需要什么挡风玻璃雨刮器?
尽可能长时间地思考这个问题。它可能不会像以前那样去搜索和获取谷歌的前几个结果,它可能会查看大约一百个结果,然后尝试解决一百次,然后意识到,哦,实际上你需要26英寸的刀片。所以,我的意思是,这可能是我自己的用户错误。我需要,我需要问,我需要告诉它这样做。所以,
ChatGPT没有的一件事是,因为高级套餐的订阅者,每月50美元,可以优先获得Grok 3。虽然我认为我每月支付17美元。也许我是被列入祖父条款的,因为我已经支付了几年了。但是像每月17美元的套餐,我得到了Grok 3。但是没有发布的一件事是……
埃隆·马斯克说语音有点不稳定。它应该在一周左右发布,但你可以与它交谈。显然就像打开眼睛的语音功能一样,这太棒了,它非常动态,你就像快速说话一样,就像你在跑步机上跑步一样,就像你在唱歌一样,就像你在用约德尔唱法唱歌一样。你可以告诉它所有这些疯狂的事情。语音模式应该很好,但这不会很快到来。
一段时间。在接下来的几周内,Grok 3模型也将通过他们的API提供,我很兴奋,因为我可以将其集成到我的软件创业公司AI Box中。很多非常酷的事情。最重要的是,好吧,这是整个晚上最大的胜利。那就是埃隆·马斯克说,一旦Grok 3完全推出,每个人都可以使用它,每个人都想知道,Grok 2会发生什么?因为他们在推特上进行了一问一答,人们回应道。他说,
一旦新版本完全推出,旧版本将完全开源,任何人都可以使用。这太棒了。我认为如果OpenAI这样做,他们可以解决从非营利组织转变为营利组织以及每个人都讨厌他们的所有有争议的问题。萨姆·奥特曼就像,他昨天在我的观点看来在推特上做了一个偷偷摸摸的投票,他就像,你们想要什么?你们想要最好的O3模型开源吗?是的。
因为他们即将推出一个新模型?或者你们想让我们制作最好的手机模型吗?他表达的方式,每个人,我甚至说,哦,我想要最好的手机模型,因为我想,哦,拥有一个开源的手机模型会很酷。但我意识到的是,人们可以采用最好的模型并制作手机模型版本,例如,我们可以在之后这样做。我们真正想要的是最好的开源模型,他们不会这样做,因为这是他们赚钱的方式,但他们可以做他们的旧模型,因为,
现在Grok 3已经作为消费者产品推出,我永远不会再使用我的XAI应用程序并选择使用旧模型。我总是会尝试使用Grok。
三,但Grok 2仍然能够做很多事情。对于开发人员来说,节省了大量资金。如果你可以开源它,不必支付他们的API费用,并在你自己的电脑上自行托管或运行它。超级,超级酷。所以我认为,嗯,这个公告最大的胜利,除了,好吧,他们制作了一个在基准测试中击败所有人的模型。这很酷。但我认为最大的胜利是他们说他们将树立一个先例,即旧模型将始终开源。他们只是免费提供给所有人,给公众。所以
这真的很酷。我很想看到开放。自从他们的公司成立的目的是成为一家开源AI公司以来,他们现在是闭源的。嗯,
我很想看到他们效仿。我认为这将给他们施加一些压力,让他们可能这样做。你已经看到萨姆·奥特曼在谈论这件事了。我认为如果这成为Grok的先例,他们将被迫这样做,我会非常高兴的。总的来说,我对正在发生的一切都非常兴奋。我会随时向你更新XAI的最新消息。非常感谢你收听这个播客。再次,如果你想使用AI工具来发展和扩展你目前的业务或副业,请务必
查看描述中AI Hustle学校社区的链接。非常感谢你的收听,我们下次再见。