We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

How Google's Latest Gemini Model Stacks Up

2025/2/8

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive AI Chapters Transcript

People

Binduretti

Ethan Malek

Mark Watson

OpenAI

无

Topics

Caspian: 我观察到DeepSeek的发布给大型AI实验室带来了显著的竞争压力,促使它们在成本控制和用户界面设计上进行创新。DeepSeek R1因其分享思考过程的特性而备受欢迎,这在用户中建立了信任感。用户觉得它很“可爱”,因为它会分享自己的思考过程。这种透明度对于建立用户信任至关重要。 Kevin Wheel: 作为OpenAI的首席产品官,我承认展示完整的思维链可能导致竞争对手进行模型蒸馏。然而,我们也意识到高级用户希望了解模型的推理过程。因此,我们正在努力寻找一个平衡点,在展示更多信息的同时,防止我们的技术被轻易复制。我们致力于在安全的前提下,尽可能地提高模型的透明度。

Deep Dive

Shownotes Transcript

今天在AI每日简报中,我们将讨论谷歌最新的旗舰模型。在此之前,头条新闻是OpenAI更新了其展示O3 Mini思维链的方式。AI每日简报是一个每日播客和视频,内容涵盖AI领域最重要的新闻和讨论。要加入讨论,请关注我们节目说明中的Discord链接。

欢迎回到AI每日简报头条新闻版,所有您需要的每日AI新闻,大约五分钟即可看完。对于声音问题,我们深感抱歉,但我们会坚持下去。DeepSeek发布的一件非常有趣的事情是,它似乎不可避免地会给大型美国实验室带来竞争压力,迫使它们以略微不同的方式做事。显然,这种压力的一部分将是经济上的,实验室必须努力降低成本以与DeepSeek相匹配,但似乎也可能进行一些UI复制。

我们现在已经正式看到了这一点,OpenAI更新了其推理模型的可视化思维链。所有免费和付费用户都将更全面地了解O1和O3 Mini等模型在生成响应时的思维过程。OpenAI告诉TechCrunch:“我们正在为O3 Mini引入更新的思维链,旨在让人们更容易理解模型的思维方式。通过此更新,您将能够跟踪模型的推理过程,从而使您对其响应更有信心和清晰度。”

值得注意的是,这是普通用户在DeepSeek的R1进入App Store时真正喜欢的事情之一。SplitByComma的Caspian分享了一段对话,其中有人说:“DeepSeek也很可爱,它会分享它的思维过程。”另一个人回应道:“它自言自语的方式超级可爱。”但除了可爱之外,它显然也增强了人们对理解其最终得出答案的思维过程的信任。OpenAI之前曾显示思维链的较短摘要。这可能是出于竞争原因。

研究人员发现,通过蒸馏复制推理功能非常便宜且容易。尽管如此,O3 Mini仍不会显示完整的推理样本。OpenAI官方表示,这是一种安全预防措施,并评论道:“......为了提高清晰度和安全性,我们添加了一个额外的后处理步骤,其中模型会审查原始思维链,删除任何不安全的内容,然后简化任何复杂的思想。”

然而,首席产品官Kevin Wheel暗示这可能仍然是一种反蒸馏措施。在上周的Reddit AMA中,他说:“我们正在努力展示比今天多得多的内容,所有内容都有待确定。展示所有思维链会导致竞争性蒸馏,但我们也知道人们,至少是高级用户,想要它,所以我们会找到平衡它的正确方法。”继续OpenAI主题,Stargate项目即将在德克萨斯州选择更多数据中心站点,并转向其他州。

彭博社报道称,OpenAI公司发言人表示,OpenAI“在为大型数据中心项目选择德克萨斯州的几个地点方面进展顺利”。第一个站点已经在德克萨斯州阿比林动工建设,据报道,OpenAI和软银的工作人员正在评估另外13个州的潜在站点,本周正在宾夕法尼亚州、威斯康星州和俄勒冈州考察地点。

每个站点的容量预计约为1吉瓦。这大约相当于一座核反应堆的输出功率,是XAI的Colossus超级集群传闻容量的六倍。

OpenAI全球事务副总裁Chris Lehane表示,在白宫宣布之后,合资企业受到了来自全国各地民选官员的巨大关注。OpenAI从上周开始公开征求提案,以加快其选址过程。Lehane向州政府和市政当局推销该项目,并表示:“你将成为一个AI中心,这将开始吸引开发者,开始吸引其他公司,开始吸引那些想要成为更广泛生态系统一部分的人。”

接下来,是我们今天“难以置信它竟然花了这么长时间”的故事。期待已久的AI Alexa可能即将发布。据路透社消息来源称,亚马逊已安排在本月晚些时候举行新闻发布会,推出新款更智能的Alexa版本。他们说,新闻发布会的邀请函已于2月26日发出。AI Alexa是Alexa的全新更智能版本。

自从AI Alexa在2023年末首次亮相以来,它一直是最受期待的AI产品之一。老实说,自从我们看到ChatGPT以来,它一直是最受期待的产品之一。由LLM驱动的Alexa显然会带来更好的体验。然而,开发过程中出现了一系列延误和关于问题的报道。去年10月,彭博社发表了一篇专题文章,列出了从幻觉到高成本再到公司官僚摩擦的一系列问题。最引人注目的解释是,原型在Alexa的核心功能方面表现不佳。

彭博社写道:“参与这项工作的顶级工程师和测试人员表示,增强型AI助手仍然可能会喋喋不休地说一些无关紧要或多余的信息,并且难以完成它以前擅长的一些乏味任务,例如开关灯。”

坦率地说,路透社的报道并没有让我们对该产品真正准备好上市充满信心。他们写道:“据知情人士和一份内部规划文件显示,高管们已安排在2月14日举行一次被称为‘成败攸关’的会议。在那里,他们将最终决定Alexa生成式AI改进的市场准备情况。”所以,谁知道呢,这可能实际上只是又一次延误。

最后,在OpenAI联合创始人John Shulman离开该公司加入Anthropic大约六个月后,他现在又离开了Anthropic,加入了前OpenAI首席技术官Mira Murady的新创公司。我们仍然不知道这家名为Thinking Machines Lab的创业公司将做什么,但他们肯定正在招揽一些优秀的人才,因此值得密切关注。

不过,就目前而言,这就是今天的AIDA Learreef头条新闻版的全部内容。接下来是主要剧集。今天的剧集由Vanta赞助。信任不仅仅是赢得的,更是被要求的。无论您是正在应对第一次审计的初创公司创始人,还是经验丰富的安全专业人员正在扩展您的GRC计划,证明您对安全的承诺从未像现在这样重要或复杂。这就是Vanta的用武之地。

企业使用Vanta通过自动化合规需求来建立信任,涵盖35多个框架,例如SOC 2和ISO 27001。集中的安全工作流程可以将问卷调查完成速度提高5倍,并主动管理供应商风险。Vanta可以帮助您启动或扩展安全计划,通过将您与审计员和专家联系起来,快速进行审计并建立安全计划。此外,由于平台中使用了自动化和AI,Vanta可以为您节省时间,让您可以专注于公司建设。

加入超过9000家全球公司,例如Atlassian、Quora和Factory,他们使用Vantage实时管理风险和改进安全。

如果2025年关于AI有一点是明确的,那就是代理即将到来。按行业划分的垂直代理、水平代理平台、基于代理的平台。

每个功能的代理。如果您正在运营一家大型企业,那么明年您将尝试使用代理。鉴于这是新事物,我们所有人都会回到试点模式。

这就是Super Intelligent在今年年初提供新产品的原因。这是一个代理准备情况和机会审计。在短短几周内,我们将与您的团队深入探讨哪些类型的代理适合您进行测试,您需要哪些类型的基础设施支持才能做好准备,并最终获得一套可操作的建议,让您准备好了解代理如何改变您的业务。

如果您对代理准备情况和机会审计感兴趣,请直接联系我,[email protected]。在主题行中输入“agent”一词,以便我知道您在谈论什么。让我们让您成为AI市场最具活力部分的领导者。您好,AI每日简报听众。快速休息一下,分享一些来自KPMG最新AI季度脉搏调查的非常有趣的发现。

您知道吗?67%的商业领袖预计AI将在未来两年内从根本上改变他们的业务?然而,并非一帆风顺。他们面临的最大挑战包括数据质量、风险管理和员工采用等问题。KPMG处于帮助组织克服这些障碍的最前沿。他们不仅仅是在谈论AI,他们正在通过切实可行的解决方案和实际应用来引领潮流。

例如,超过一半的受访组织正在探索使用AI代理来处理行政事务和呼叫中心运营等任务。因此,如果您希望在AI领域保持领先地位,请关注KPMG。他们不仅仅是对话的一部分,他们正在帮助塑造它。在kpmg.com/US了解更多关于KPMG如何推动AI创新的信息。

欢迎回到AI每日简报。我们深感抱歉,请耐心等待我的声音恢复。希望我们下周初就能恢复正常。今天我们将讨论谷歌最新的模型发布,当然,这不可避免地会与DeepSeek(作为当今的热门模型)进行比较。我们将讨论该模型的性能如何,人们对此有何反应,以及这对预训练与推理时扩展的问题意味着什么。

因此,简而言之,谷歌发布了其最新的旗舰模型Gemini 2.0 Pro。该模型仍被标记为实验性模型,可通过Google AI Studio和Vertex AI进行早期测试。此外,谷歌已将其领先的推理模型Gemini 2.0 Flash Thinking全面提供给所有应用程序用户。通过与DeepSeek竞争的视角来看,Gemini将Flash Thinking放入其主线产品中的举动使其效仿,使推理模型易于普通用户使用。

在一两周前的DeepSeek新闻周期中,许多人指出,谷歌的模型在成本和性能方面基本相当,但将模型隐藏在AI Studio中显然损害了分发和更广泛的认知。谷歌似乎拥有显著优势的几个领域?DeepSeek R1和OpenAI的O3 Mini都不接受图像或文档上传作为输入,而Gemini还具有与Google Maps、YouTube和Search的原生集成,因此可以开始处理与这些应用程序相关的某些基本代理功能。

对于Gemini 2.0 Pro而言,该公司的旗舰模型针对编码和复杂提示进行了优化。谷歌继续强调其行业领先的标记上下文窗口,现在已达到200万个标记,这允许它将大约七本书作为输入,或者甚至是最大代码库的很大一部分。标准基准测试将该模型在高和中等设置下的排名列在OpenAI的01或03 mini之下。

它也低于Gemini Flash 2.0 thinking。然而,AI for Success账户强调了比较这些模型的问题,并发布了:“‘你为什么要将Gemini 2.0 Pro与O3进行比较?Gemini 2.0 Pro不是推理模型。’”看起来谷歌应该发布Gemini 2.0 Pro推理模型,而不是这个。它仍然是最好的非推理模型。这就是模型,但更有趣的是它对更广泛的前沿AI现状的说明。

这是谷歌自去年11月人们对预训练达到瓶颈的担忧以来发布的首个旗舰模型。据推测,这是消息来源告诉彭博社未能达到内部预期的Gemini更新版本。Binduretti很快宣布谷歌已经撞墙,因为该模型落后于高级推理模型和基准测试。她写道:“新的Gemini 2.0 Pro性能低于03、01和R1。预训练似乎已经达到瓶颈,所有收益都来自扩展推理。”

Gemini 2.0 Pro落后于其更小的Gemini 2.0 Flash thinking版本。总的来说,它在编码方面也不突出,仍然落后于Sonnet 3.5。

Google AI Studio的产品负责人Logan Kilpatrick似乎不同意,评论道:“没有看到瓶颈。”再说一次,谈论基准测试与实际应用总是很冒险的。在这方面,Ethan Malek教授似乎印象深刻,他写道:“我给Gemini 2.0提出了一个提示,要求它创建一些我可以粘贴到P5.js中的内容,它会以其巧妙的方式创建一些东西来惊吓我,这些东西会调用遥远未来星舰的控制面板。结果相当不错,一个视窗,星星飞驰而过,一些动画效果很好的刻度盘和控制装置。”

Ethan指出,Gemini 1.5 Pro无法做到这一点。其他人尝试了在旋转六边形内模拟弹跳球的真实物理测试。同样,效果也很好,比Gemini 2.0 Flash Thinking的结果更好。I Rule the World MO(Strawberry Leaker账户)发布了他们的Pac-Man游戏编码测试结果,并写道:“好吧,我必须公平地说。除了我认为是完整的O3之外,这很容易是我遇到的最好的单次Pac-Man游戏。”

AI科学家Mark Watson写道:“我刚刚第一次尝试使用Gemini 2.0进行复杂的Python编码请求。代码很漂亮,而且有效。这可能是我见过的最令人印象深刻的代码生成。至少与O3 Mini High不相上下,后者也完美地完成了相同的编码问题。”那只是一个测试,但我对这两个模型都很满意。另一方面,该模型未能通过草莓测试,认为该词只有两个R。

现在,愚蠢的草莓测试突出了我们在确定新模型好坏时面临的问题之一。基本上,目前的基准测试已经饱和,它们并没有真正告诉我们太多关于模型性能的信息。GPT-4发布时,它比GPT-3有了巨大的进步,而01通过添加推理的新模式带来了类似的进步感。但现在,模型普遍足够好,可以为所有标准用例产生良好的结果。最终,Gemini 2.0 Pro似乎非常好,但性能并没有发生质的飞跃。

再说一次,在这一点上,AI消费者似乎并不寻求性能的质的飞跃。事实上,也许最近主要的竞争轴线是速度和成本。

有些用户想要最好的推理模型,推理时间很长,可以生成博士级别的报告。总的来说,AI开发人员正在寻找他们可以找到的最便宜、最快的API来支持他们的应用程序创意。在这个世界里,在基准分数上增加几分并不像将价格降低一半那样重要。谷歌一直在利用其较小的模型在这方面展开激烈竞争。因此,我们将看看他们的完整版本是否有助于赢得更多市场份额。

我的感觉是,在这一点上,除非我们看到一些重大、重大的能力变化,否则所有这些渐进式改进的影响将远小于一两年前。这就是今天的AI每日简报的全部内容。一如既往地感谢您的收听或观看。直到下次,再见。

How Google's Latest Gemini Model Stacks Up 13:05 Share

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

Deep Dive

Shownotes Transcript

How Google's Latest Gemini Model Stacks Up