这是 Everyday AI Show,一个每天播出的播客,我们简化 AI 并将其力量带到您的指尖。每天收听,获取提升您的职业、业务和日常生活的实用建议。OpenAI 会在 2025 年的大型语言模型竞赛中胜出吗?
还是谷歌已经超越他们了?或者 Anthropic Claude 会从 2024 年下半年不怎么更新的休眠中醒来,重新夺回所有关注的焦点?我们今天将在 Everyday AI 中更详细地讨论这个问题。
大家好!我是 Jordan Wilson,欢迎收听 Everyday AI。在我们开始之前,必须快速感谢一下我们在微软的合作伙伴。那么,你为什么应该收听微软的 WorkLab 播客呢?因为它是寻找基于研究的见解来指导您的组织进行 AI 转型的地方。现在收听,了解如何转变思维方式可以帮助您掌握……
AI 的全部潜力。这是 W-O-R-K-L-A-B,没有空格,可在您收听播客的任何地方找到。另一个您可以收听播客的地方,就在这里,也就是我们的网站。如果您是新来的,感谢您的收听。我是 Jordan Wilson。这是 Everyday AI。我们每天都这样做。这是您的每日直播播客和免费每日新闻通讯,帮助我们所有人……
学习并利用生成式 AI 来发展您的公司和职业。您可以花费,我不知道,一天几小时试图跟上,试图了解这一切意味着什么。或者您可以让我们来做这件事。每天收听。订阅播客并访问我们的网站 youreverydayai.com。在那里,它就像一个免费的生成式 AI 大学。数百个,数百个……
剧集。您可以回顾、观看、收听它们,并在我们的网站上阅读所有重要的见解,所有这些都是免费的。所以这是您新的家外之家。所以请务必去看看。好了,在我们开始之前,今天我很高兴讨论 2025 年的大型语言模型竞赛。不是一个预测节目。两周后我们将为你们带来这个节目。我已经花了数十个小时来准备这个节目。好了,在我们开始之前,让我们像往常一样谈谈 AI 新闻。
微软宣布投资 30 亿美元,以促进印度的 AI 和云服务。微软对印度的巨额投资凸显了印度在全球科技领域,尤其是在 AI 领域日益增长的重要性。微软计划投资 30 亿美元,以扩大其在印度的 AI 和云服务。
该公司计划在那里额外培训 1000 万人掌握 AI 技能,这可能会增强科技行业许多人的就业前景和职业发展。首席执行官 Satya Nadella 强调了 AI 在印度令人兴奋的扩散速度,这表明 AI 技术具有强大的市场潜力。
微软已经在印度运营三个数据中心区域,并且正在准备启动第四个数据中心,旨在为初创企业和研究人员开发可扩展的 AI 计算生态系统。
好了,下一个 AI 新闻,据报道,谷歌正在组建一个新的 AI 团队,旨在用高级模型模拟物理世界。是的,更多世界模型更新。这些很重要。谷歌凭借在谷歌 DeepMind 组建一个新的团队而成为头条新闻,该团队专注于开发模拟物理世界的 AI 模型。这就是它为什么如此……
值得关注的原因。好吧,领导它的人是前 OpenAI 员工。因此,前 OpenAI 视频生成器 Sora 的联合负责人 Tim Brooks 将领导这个新团队,该团队的目标是解决……
引用“AI 建模中的关键新问题”。该团队将与现有项目(如谷歌的 Gemini、VO 和 Genie)合作,增强功能和图像分析、文本生成和视频制作。因此,谷歌的 Gemini 系列因其在 AI 任务中的多功能性而广受认可,而 VO 专注于视频生成,Genie 则实时模拟游戏和 3D 环境。所以……
世界模型的这种发展可能会彻底改变不同的行业,包括视觉推理、模拟和互动娱乐,可能会影响视频游戏和电影的创作方式。好了,最后但绝对不是最不重要的,你会听到……
本周将听到更多关于 CES 的消息,但 CES 已经取得了巨大的成功。因此,最大的科技会议几个小时前启动,NVIDIA 首席执行官 Jensen Wong 发表了主题演讲。好了。就像我说的,我们将在今天的新闻通讯和本周剩余时间里对此进行更多报道。我们可能会在周四或周五专门做一个剧集来回顾所有新内容,但以下是 NVIDIA 宣布的内容以及为什么 NVIDIA 主题演讲……
世界上最大的科技展之一,对吧?消费电子展。好吧,因为他们宣布的一切都会影响科技界的方方面面,对吧?他们正用他们的 GPU 芯片为生成式 AI 运动提供动力。所以……
说到这个,一些新的 GPU 宣布。RTX 50 系列 GPU 采用 Blackwell 架构。他们有四种新型号,价格非常高。RTX 5070 的起价为 549.00 美元。
这怎么可能?是的,如果你不是一个书呆子,RTX 5070 的 549 美元新机型令人费解。此外,GB10(用于台式机 AI 计算的 Grace Blackwell 超级芯片)宣布了……
Cosmos 平台的更新,用于物理 AI 和机器人训练。可能是我们昨晚看到的最大更新之一。NVIDIA 通过 Project Digits(其第一台超级计算机)进军台式机市场。它的价格为 3000 美元,但功能非常强大,比……
目前您可以购买的任何计算机都强大得多。此外,他们还宣布与丰田公司在自动驾驶系统方面建立合作伙伴关系,以及 Uber 和 Nvidia 合作增强自动驾驶汽车的 AI 技术。所以是的,我们的新闻通讯中还有更多 AI 新闻。因此,请访问 youreverydayai.com,注册免费的每日新闻通讯。好了。是的。
呃,Fred 刚刚说了 project digits。哇。是的。呃,Juliet,主题演讲,我相信你可以重播。我们今天也会在新闻通讯中留下这个。好了。我很期待这个。那么 OpenAI 会在今年的大型语言模型竞赛中胜出吗?所以这实际上是……呃……你的节目。呃……所以在昨天的新闻通讯中,我说,嘿,我们即将迎来我们的“热议周二”。你想听什么?呃……所以……呃……
如果您是该播客的长期听众,我实际上是为你们创建了这个节目,对吧?我注意到,当我四五年前试图了解更多关于生成式 AI 的信息时,我注意到它只适用于技术人员。所以我想创建一个对我们所有人都有用的东西。所以有时在新闻通讯中,我会说,伙计们,你们明天想听什么?我会熬夜为你们准备一个节目。所以这在技术上是一个用户请求。好了,让我们来谈谈吧。
所以现在,我只是专注于 OpenAI、谷歌和 Anthropic,在这个“谁将胜出”的剧集中。原因如下。显然,一些游戏中最大的名字正在玩不同的游戏,对吧?微软。
他们目前的 Microsoft 365 副驾驶正在使用 OpenAI 的 GPT-4.0 来为他们的系统提供动力。所以很多人都在想,哦,微软怎么样?好吧,即使他们正在开发自己的模型,他们的五个模型也是很棒的小型语言模型。他们是……
据报道,未来除了 OpenAI 的 GPT-4 之外,他们还将提供新的模型或新的选择。他们不是这场比赛的参与者,不是大型语言模型竞赛的参与者。还有 Meta,Meta 正在走向开源风格,并非真正开源,但我认为他们也在玩不同的游戏。还有所有中国公司,我认为他们将在 2025 年真正加入这场讨论。
就像我说的,我们将有整个 2025 年的预测节目。我认为我们将在几周后将其分解。但这只是关于大型语言模型竞赛。谁会赢得它?好吧,首先,让我说一下,为什么这很重要?好吧,
如果您正在收听这个节目,您可能每天都在使用大型语言模型。这就是它重要的原因,对吧?可能在您业务、公司、职业和个人生活的方方面面,您可能都在大量使用 AI。所以这种前沿模型竞赛,对吧,它影响着我们所有人。
即使您现在不是大型语言模型的忠实用户,可能也有数千个知名软件,您可能甚至不知道它们正在利用这些技术。所以这是另一件事。至少当我们谈到谷歌、OpenAI 和 Anthropic 这所谓的“三巨头”时,它们的 API 或后端……
正在为几乎所有东西提供动力。目前很少有企业软件不使用 AI,不使用大型语言模型。在大多数情况下,在绝大多数情况下,它们都在使用这三种模型之一。所以即使您没有登录这些工具的前端,
您可能也从中受益,对吧?它们开始渗透到我们日常生活的方方面面。这就是为什么这场竞赛,这场大型语言模型竞赛非常重要的原因。好了。直播观众。让我知道你们认为谁会赢得这场比赛?好了。
呃,是 A OpenAI 吗?是 B 谷歌吗?是 C Anthropic 吗?可能是 D Meta 吗?或者您可以在评论中留下 E 其他选项呃,我很想知道其他人的想法,对吧?嗯,每天做这个 Everyday AI 的一部分……与你们所有人一起学习……
我从我的角度来看待它。我很幸运能够大部分时间,或者说足够傻来大部分时间玩大型语言模型,测试新功能,帮助大型企业公司。人们总是说,哦,Jordan,这个 Everyday AI 怎么赚钱?好吧,我们很幸运能有像微软这样的优秀赞助商和合作伙伴,但企业公司会雇用我们。他们会说,嘿,Jordan 和团队,我们有 5000 名员工,或者……
500 名员工需要学习 ChatGPT,或者我们需要学习 Microsoft Copilot,然后我们去帮助他们。所以,你知道,我很幸运能够采访这些公司的人,但也能帮助……呃……企业组织和中小型企业真正学习这些,但是……
我想向你们学习。所以,是的,到目前为止,很多人在这里说,你知道,Marie 说,Marie 说,Kathleen 说 A,这是一个压倒性的 OpenAI。Fred 是谷歌团队。Douglas 说 OpenAI 和微软。
Jackie 说这是 OpenAI 和谷歌之间的两强争霸。很多人,没有人投票给 Anthropic。这很有趣。这很有趣,对吧?根据你查看的地方,你阅读的地方,你会认为 Anthropic 是唯一存在的大型语言模型,对吧?我认为 Twitter 上的人,无论出于何种原因,都非常非常看好……
Anthropic,对吧?就像你真的会认为没有其他大型语言模型存在一样。这就是为什么我喜欢问你们所有人……
但让我们继续谈谈它。我想给你三个理由。好了?是的,这是“热议周二”。我将不小心开始滔滔不绝。我会让 Fred 比平时在跑步机上待更长时间。对不起。或者如果你正在遛狗。好了?但我将给你三个理由。
为什么 OpenAI 可能会赢得这场比赛,以及为什么他们可能不会赢得比赛。最后,我会给你我诚实的看法,谁会赢得这场比赛。再说一次,让我提醒你它的重要性。你的公司可能正在做出长期性的,也许是七位数或八位数的财务决策。
关于他们使用哪个大型语言模型,无论您是在前端的团队或企业帐户中使用它,还是在后端使用 API 构建某些东西。
你的公司很有可能正在对大型语言模型以及如何利用它来改变知识工作进行重大投资。所以请记住这一点。我一直喜欢重新构建这一点并告诉你为什么它很重要。让我们从 OpenAI 可能不会赢得比赛的原因开始。
大型语言模型竞赛。是的。你可能对这个感兴趣,因为你会说,Jordan,你一直都在谈论 OpenAI。好吧,是的,它是。我的意思是,OpenAI 是技术上启动生成式 AI 世界浪潮的公司。
是的,GPT 中的转换器技术起源于谷歌的研究人员,但 OpenAI 在 2022 年 11 月技术上启动了整个生成式 AI 竞赛,其 AI 聊天机器人 ChatGPT,尽管在此之前已经有很多不同的大型语言模型可供开发人员使用。但他们可能不会赢得比赛的第一个原因,即使他们某种程度上启动了它。
是因为我认为这场比赛将为推理和自主模型让路。或者换句话说,我们看待这场比赛的方式,对吧?就像谁赢了?我们查看基准,对吧?我们查看诸如 MMLU 或 MMLU Pro 或 human eval 之类的东西,对吧?我们查看所有这些书呆子基准。
但我们也查看一对一的得分,对吧?所以可能最流行的一个是 LM Arena 或 Chatbot Arena,以前在 Hugging Face 的保护伞下,但现在它有自己的域名了。所以这里有数百万用户参与其中,他们输入一个提示,然后得到两个输出,然后他们判断哪个更好。
更好。好了。这给了我们所谓的 ELO 分数。所以把它想象成,你知道,他们如何……呃……对百事可乐和可口可乐进行盲品测试。这有点像这样。有数十个前沿模型……呃……一对一盲测,获胜最多的模型基本上获得最多的分数。我认为在 2025 年……呃……
这些大公司会更少关注。我认为在 2023 年,基准和 ELO 分数在很大程度上推动了讨论。事实上,我认为这两个指标影响了决策者对他们应该尝试哪个模型的决定。我认为部分原因是正确的,对吧?因为当你查看功能时,对吧?
同样,直到 2024 年下半年,这两个基准,这两个指标本身,对吧?聊天机器人竞技场和基准讲述了整个故事,对吧?这就是公司努力的方向。我认为 2025 年不会是这样。
我认为像 OpenAI 这样的公司将不再那么关心。你不能说他们不关心,对吧?因为你会看到,每当这些公司中的一个……你知道……发布一个模型,然后他们……你知道……被加冕为聊天机器人竞技场排行榜的榜首时,你知道……字面意思是一天后,你知道……
另一家公司会发布他们一直在使用的模型的更新,因为他们会说,哦,我们在聊天机器人竞技场排行榜的榜首被超越了。所以你不能说这不是 2023 年和 2024 年发布的驱动因素。它是,但我认为在 2025 年,我们将……
我们将更多地谈论商业价值,对吧?我认为基准和 ELO 分数不再那么重要了,因为我们已经达到顶峰了,对吧?如果你是一个书呆子,像我一样关注 MMLU,我的意思是,所有新模型都将是 88、89、90、91、92,对吧?它们将达到 80 多分,90 分以下,这比最聪明的人类……
最聪明的人类还要聪明,而且差距很大,对吧?所以我们已经超越了大型语言模型的点,只要你知道你在做什么,大多数在线谈论 AI 或分享 AI 的人实际上并不知道他们在谈论什么,但只要你的公司知道他们在做什么,他们可能确实知道,因为你正在投资这项技术,对吧?收益递减的某个点……
我认为一旦你在这些基准上达到某个点,一旦你达到某个 MMLU,对吧?一旦你达到某个 ELO 分数或与其他模型的一对一胜率,就像我认为收益递减的点到了,是的……
我认为它变成了一个简单的“是”或“否”。我认为聪明的公司已经想明白了这一点,对吧?为了在 MMLU 上从 88.7 分提高到 89 分而过度拟合模型将不再是一个驱动因素了。所以……
我想说的是,OpenAI 可能不会在 2025 年的大部分时间里占据基准榜首,占据排行榜榜首。就像他们自这些基准被广泛使用以来,自聊天机器人竞技场开始成为主要讨论话题以来,他们可能已经花了 80% 的时间在榜首。我认为这将不再那么重要了,或者不再那么重要了。好了。
Fred 说人们确实一直在离开 OpenAI。这是事实。好了,让我们继续,因为 OpenAI 仍然有他们的旧模型,引用“旧”,对吧?GPT-4.0,于 5 月发布。
它仍然在这些聊天机器人竞技场排行榜上名列前茅,这也是我认为他们可能不会在技术上赢得比赛的另一个原因。我认为这场比赛只是会被重新定义,对吧?在衡量大型语言模型竞赛的方式方面。我认为这将更多地关注创造商业价值,而不是关注其他事情。所以第二个原因是,OpenAI 可能不会赢得比赛。ChatGPT 搜索存在严重缺陷。
严重地。好的。所以不进行太多旁白,除了 Claude 之外,大多数大型语言模型都没有连接到互联网。
好了。所以这是有问题的。所以互联网连接是一个巨大的组成部分,至少是在前端使用这些模型,因为在很多情况下,训练数据,对吧?所以基本上想想大型语言模型。有一个训练截止日期。
所以你有一群聪明的研究人员,他们吞噬了互联网上的所有信息,其中很多都是受版权保护的。他们让聪明的员工训练这些模型,然后将其发布给我们所有人。通常有一个知识截止日期,但这个知识截止日期通常是在过去 9 个月到 18 个月之间。
而你正在处理的大多数事情都需要最新的信息。所以大型语言模型连接网络的能力非常重要。
好了。所以之前 OpenAI 使用……呃……他们有一个名为“使用 Bing 浏览”的功能。好了。然后我相信是晚些时候……呃……我们只说……呃……10 月……呃……10 月、11 月……呃……2024 年 10 月。OpenAI 推出了 ChatGPT 搜索。所以从……呃……
UI UX,对吧?从用户界面、用户体验的角度来看,有很多好处,对吧?它带来了谷歌地图的方面……呃……它带来了这些丰富的摘要,对吧?ChatGPT 搜索。它是……他们仍然在使用……据我们所知,……呃……微软 Bing 技术在某种程度上位于后端。他们并没有真正详细描述它,但 ChatGPT 搜索是 OpenAI 和 ChatGPT 如何保持与其知识截止日期之后实时更新的信息连接的方式。但它存在严重缺陷。
“使用 Bing 浏览”没有这些问题。我认为谈论这一点很重要。我一直说,哦,也许我会专门做一个节目来讨论这个问题,但我随时知道 OpenAI 可以修复这个问题。他们必须知道这是一个问题。目前严重缺陷的是什么?是的,它很棒。你可以问 ChatGPT,芝加哥(我居住的城市)本周末发生了什么,对吧?它会给你这个不错的谷歌风格的搜索结果,对吧?带有丰富的摘要、列表……
你知道,小照片。好用,对吧?现在我们看到在移动设备上推出,它基本上会提供地图结果,对吧?非常漂亮且直观易用。然而……
迭代提示在使用 ChatGPT 搜索时会中断。有一个小地球图标。有时 ChatGPT 会自行使用此功能或调用此工具,即使您没有调用它。很多……
使用大型语言模型是在第一个提示之后发生的事情,对吧?它是迭代的本质。它来回进行,对吧?例如,你知道,我们的主要提示抛光,你知道,我们的 PPP 方法。它不仅仅是输入一个巨大的提示。它是在进行对话。它在你的第一次回应之后来回进行。
无论出于何种原因,自从它发布以来,ChatGPT 搜索,它会陷入循环,对吧?你不能真正迭代或建立在结果之上。我不知道为什么。它已经坏了几个月了……呃……
这令人担忧,因为如此大的一个功能,并非 100% 的时间,但很大一部分时间,它会陷入循环。所以假设你问,例如,最大的 AI 新闻是什么,对吧?然后 ChatGPT 将使用 ChatGPT 搜索,因为它知道它需要为此提供最新的信息。它可能会吐出一些趋势,对吧?然后你回去并改进它,你说,不……
请给我 2025 年 1 月的顶级 AI 新闻。猜猜怎么了?在大多数情况下,它会吐出完全相同的回应。我不知道为什么 OpenAI 没有修复这个问题。这有点令人担忧,因为有数亿人在使用 ChatGPT 和 ChatGPT 搜索。
呃……他们没有修复这个问题令人担忧。我知道我不是唯一一个抱怨这个问题的人……呃……但我一直在大声抱怨这个问题,但这就是他们可能不会赢得比赛的原因,因为他们还没有修复这个问题。而且它已经几个月了,用户体验非常糟糕。我知道。12 月,他们发布了两年多的功能和更新,但看起来 ChatGPT 搜索只是被忽略了。对。嗯……
核心功能,因为它的核心功能是损坏的。如果你将其与“使用 Bing 浏览”进行比较,在 2024 年下半年的“使用 Bing 浏览”更新之后,它基本上已经是一个轻量级的 Perplexity 了。好了。第三个原因是,OpenAI 可能不会赢得大型语言模型竞赛。好吧,他们正在烧钱。
而且他们面临着增加。所有这些都是据报道的,对吧?据报道,OpenAI 在 2025 年或对不起,在 2024 年损失了数十亿美元。
所以据报道,OpenAI 在 2024 年亏损了 50 亿美元。所以这是 OpenAI 可能不会赢得大型语言模型竞赛的另一个原因。他们正在烧钱,对吧?据报道。他们需要盈利。他们刚刚发布了他们新的、更昂贵的平台。
每月 200 美元。OpenAI 首席执行官 Sam Altman 在 Twitter 上说,哦,我们实际上在这个项目上亏钱了,对吧?所以我相信投资者看到这条推文并不高兴,这导致了很多新闻和媒体报道,嘿,OpenAI 正在亏损更多。所以为什么?
他们可能不会赢得比赛的一个原因是,他们可能想要从大型语言模型的角度进行的改进可能无法获得所需的资源。他们正在失去关键人物,就像我们在节目的开头谈到的那样,谷歌的新 AI 团队,现在他们有了 Tim Brooks,前视频生成器 Sora 的联合负责人。所以他们正在烧钱,对吧?据报道他们正在亏损。
这可能会……我的意思是,这与他们增加的……至少从外部角度来看,他们对 AGI、ASI 的关注度增加,所以是人工通用智能、人工超级智能,对吧?他们增加的关注度……
外部关注可能会阻止他们进行内部……呃……日常驱动程序,即改进他们的两类模型,对吧?所以他们有他们的 GPT 类模型,所以我们有 GPT 4.0,然后他们有他们的推理类模型 O1……呃……所以 O1……呃……
01 Mini、01 Pro,然后你有你的 03,它可能会也可能不会在 2025 年发布。我们将拭目以待。但他们可能会失去对实际大型语言模型的关注,而追逐自主 AI,追逐 AGI,追逐人工超级智能。所以这可能会阻止他们进行日常比赛。
好了,在我们进入我认为他们仍然可能赢得 2025 年大型语言模型竞赛的三个原因之前,让我告诉你更多关于 Microsoft WorkLab 的信息。那么,你为什么应该收听微软的 WorkLab 播客呢?因为它解决了你在工作中关于 AI 的棘手问题,例如我如何指导我的组织进行 AI 转型?AI 如何帮助最大化价值并创造新的产品和商业模式?
如果我们想充分利用它的潜力,我们需要做出什么样的思维转变?在 WorkLab 上找到答案。这是 W-O-R-K-L-A-B。没有空格,可在您收听播客的任何地方找到。好了,直接进入正题。现在,OpenAI 可能赢得 2025 年大型语言模型竞赛的三个原因。第一,他们得到了用户,宝贝。他们得到了所有人。
它得到了用户,有了用户就会有数据,有了数据就会有更好的模型,对吧?我还是认为人们没有意识到每月 20 美元使用 Anthropic 的云端专业版是多么划算,对吧?即使你以错误的方式看待云端,你也会遇到速率限制,对吧?我在我们的直播评论中看到有人说……
有人在直播中发推文。我想是迈克尔,关于速率限制,对吧?是的,但即使是这些每月20美元的极其昂贵的计划,对吧?来自微软Copilot、ChatGPT、Gemini、Anthropic Claude以及所有其他大型语言模型制造商。如果你没有选择退出数据,你就是产品,对吧?很多人对此一无所知。
很多人不知道如何关闭他们的训练数据,对吧?而且我认为,在更高的计划中,你的数据会有更多保护,对吧?所以我拥有……
普通的,呃,你知道的,普通的付费账户。我有团队账户。我有企业账户,对吧?因为我们,呃,会建议公司如何在他们的组织中大规模使用它,对吧?所以我了解不同级别的不同数据控制。所以即使在基础级别或免费级别,对吧?很多人都在使用免费计划,他们只是把所有公司信息都倒进去。这就是为什么我认为他们可能会
仍然赢得大型语言模型竞赛。他们拥有数据,他们拥有用户。好了。
让我们在我的屏幕上看看这个,这是给我们的直播观众看的。这只是一个谷歌趋势的比较,好吗?这不像整体搜索。这只是随时间的兴趣,对吧?相对而言。所以比较ChatGPT、Gemini、Perplexity和Claude,对吧?举个例子,谈谈一些流行的,你知道的,
AI系统。是的,Perplexity更像是一个答案引擎。这就是为什么我没有把它们包含在这个对话中。对。我主要是在谈论大型语言模型Perplexity。你只需要使用这些模型中的一个,然后你,它的技术更像是一个答案引擎。好了。但这张图显示的是兴趣、搜索量和ChatGPT的用户数量巨大。
超过所有其他竞争对手的总和。甚至都不接近。OpenAI已成为AI的代名词,对吧?
这很奇怪,因为人工智能已经存在了几十年了,但是你问街上普通人,嘿,你听说过AI吗?不是,不是你们所有人,对吧?你们像我一样,可能已经使用了数十个大型语言模型,对吧?但是问问普通的非Everyday AI听众,对吧?嘿,你对AI了解多少?他们会说,哦,像ChatGPT一样,对吧?
我妈妈使用ChatGPT,我甚至没有告诉她这样做,对吧?她可能是从我不知道的地方做的,也许是听了这个节目,所以你好,妈妈,嗯,但是你知道大多数人对AI一无所知,对吧?我们在这个节目、社交媒体和我们自己的人工智能回音室里生活在一个泡沫中,大多数人在听到AI时,他们只会想到ChatGPT
而不是传统机器学习和神经网络已被广泛使用了几十年这一事实。它是同义词。这是OpenAI的市场策略的优势之一。他们引起了巨大的轰动。我认为在2022年11月底,这种情况尤其加剧,因为
你知道,我们仍然,你知道的,处于这种COVID阶段,对吧?人们花更多时间待在室内使用技术,对吧?更多的人在家工作,它恰逢其时,并迅速发展壮大,但他们拥有更多用户、更多兴趣和更多品牌知名度,超过其他所有竞争对手的总和。甚至都不接近。更多用户,更多数据意味着你可能会获胜。让我们继续。我要结束这个了。
尽量快点。第二个原因,他们可能会赢。是的,这里有一个很好的问题。实际上,Cecilia说,谷歌难道没有潜在用户吗?有点,对吧?是的,谷歌拥有数亿用户使用他们的技术。
人们不知道的是,你必须使用付费计划,对吧?所以,呃,它现在是一个额外的附加组件,对吧?呃,Gemini,呃,或者如果你使用Gmail计划,呃,你可以免费使用Gemini,但大多数情况下,在前端使用Gemini非常困难。对于组织来说,推出这个产品很难,对吧?你有时需要一个学位才能为你的组织提供,呃,
专业版的Gemini。所以是的,我相信谷歌最终会赶上他们,但是现在就活跃用户而言,对吧?ChatGPT正在击败其他所有人。好了。第二个原因,OpenAI仍然可能会赢得LLM竞赛。他们是唯一一个拥有推理模型、项目、互联网访问、代码渲染和工具的前端模型。
好了。谷歌Gemini正在迎头赶上。他们的前端基本上,你知道的,直到2024年12月,都是AI的“不受欢迎的孩子”。对红头发的人、继子女或红头发的继子女没有冒犯的意思。我只是,你知道的,在这里使用类比。对不起。但是是的。
他们很大,就像Gemini的前端,Gemini.Google.com在12月之前基本上被忽略了。谷歌将其所有最佳技术隐藏在开发者平台、谷歌AI工作室和Vertex内部。人们不知道这一点。我
几周前做了一整集关于这个的节目。所以如果你想听的话,就去听吧。但是谷歌,我认为,最终损失了数万亿美元的市值,因为他们不明白,是那些非技术人员为财富500强公司做决策,以及他们在做什么,每个人都在做什么来测试AI,对吧?在将其应用到他们的组织中之前,测试大型语言模型,对吧?
我确实与数十家财富500强公司谈过,他们就是这样做的。没有什么错,对吧?通常,个人或一群个人或团队会首先在前端使用大型语言模型,通常是在他们的公司制定正式的AI政策之前。然后他们会去领导层展示一些东西。他们会登录chatgpt.com、gemini.com、claw.ai或copilot.microsoft.com,对吧?然后说,哦,哇,看看这个,对吧?我说的是非常……
我不会说很少见,但它并不常见,你的技术人员、CTO、CISO、CMO在后端做这些事情。前端是做出决策的地方。而ChatGPT对前端功能有着绝对的控制权。它并不接近。谷歌Gemini最终赶上了,但在四周前,谷歌Gemini,对不起,在前端很糟糕。他们没有推出他们最新的模型。五个月前,它出现了一个问题
使用谷歌,对吧?是的。Claude,很棒。我的意思是,Claude在某些方面很棒。它没有连接到互联网。他们还没有推理模型。所以OpenAI是唯一拥有所有功能的模型。他们在前端拥有你所需的一切。是否有改进的空间?绝对有。其他模型在OpenAI不擅长的领域是否表现出色?是的,对吧?谷歌Gemini。
从技术上讲,拥有更好的模型,对吧?现在,以微弱优势,但他们拥有更好的模型。Claude,他们的工件功能可以比OpenAI的Canvas更好地渲染代码,即使它们是两种不同的东西。所以是的,谷歌和Claude的前端具有优势,但OpenAI拥有所有功能。
好了。就像我们看到的那样,OpenAI推出了项目,对吧?这告诉你,是的,竞争对手在前端拥有的任何好东西,OpenAI都会实现它,或者它可能已经在开发中了。
好了。我的意思是,我们甚至还没有讨论OpenAI的前端可能还会出现什么,对吧?希望我们会看到更新的Dolly,或者它可能只是Sora照片,现在它是一个不同的前端。也许我们会看到Sora出现在ChatGPT界面中。你知道的,也许我们会看到新的操作员,也就是代理系统界面。
在ChatGPT界面中,有一些传闻说有一个叫做任务的东西,你可以安排本质上运行的提示,对吧?所以前端界面只会改进。而且我认为,无论出于何种原因,他们的两个最大竞争对手在将消费者想要的功能带到前端方面都太慢了,太停滞不前了。
好了。业务领导者至少并非全面地根据API做出决策,即使他们最终可能在那里使用大型语言模型,他们在那里测试它们,他们在前端做出决策。Chatgbt.com、gemini.google.com、claw.ai,而OpenAI正在领先。好了。第三个原因,我把它留到最后,各位。
OpenAI实际上正在碾压我认为没有人关注的最重要的游戏之一,小型语言模型游戏。好了,让我分享一下。我在2023年就公开说过这一点。我说过大型语言模型的未来是小型语言模型,因为硬件变得越来越强大。
好的。AI芯片越来越好了,对吧?你的GPU、你的NPU,对吧?在你的设备上、你的手机上或你的电脑上使用大型语言模型将变得越来越普遍,在2025年。你可能会问为什么,好吧,它更快。第一,它更安全。但是现在,当你使用所有这些前端模型时,
对吧?你正在将所有这些信息发送到云端。这使得它更昂贵。这对环境更不利,而且安全性更低。我们能否使用,你知道的,呃,OpenAI模型或谷歌模型?好吧,谷歌已经有一些或Claude模型在本地运行了。我不知道,但是OpenAI正在赢得更强大的小型模型的游戏,对吧?
没有人关注这一点。我认为这是他们现在最大的优势之一。让我快速解释一下。好了。有一篇微软的研究论文。我们在昨天的AI新闻中报道了这一点。这是我们每周的星期一总结。
直播观众,你们看了吗?还是你们觉得很无聊?告诉我。但我们昨天谈到了这一点,一篇微软的研究论文,它基本上以某种方式揭示了一些最流行的专有模型的模型大小。好了。所以这些专有模型,在大多数情况下,
他们是秘密的,对吧?没有人真正知道它们有多大,有多少参数。将参数视为模型大小。你的开放模型,对吧?他们会说。
因为你可以下载它们,你可以分叉它们,你可以基于它们进行构建,等等。所以对于Meta,你有你的Meta,是什么?32.7亿、70亿参数、110亿参数。他们的3.1有4050亿参数,4050亿参数。这就是大小,模型有多大,权重、训练,所有使该模型特殊的东西。在大多数情况下,
我们真的不知道。我们真正知道的只是GPT-4模型有1.7万亿或1.8万亿参数。巨大,对吧?所以这篇新的微软研究论文提供了一些启示。就像我说的,GPT-4有1.7万亿参数。如果我们谈论它的基准,对吧?对不起,非技术人员,请再坚持一会儿。在MMLU上得分为86.4。
GPT-4-0,对吧?所以GPT-4的后续版本或更新版本,也就是Omni模型,2000亿参数。这意味着什么?大小只有十分之一,性能却提高了,好吗?但你仍然会说,好吧,Jordan,好吧,一个2000亿参数的模型,你不能在本地运行它。好吧,你可以。
对。不是GPT-4.0,因为你无法下载它,但你可能会说,哦,这是一个巨大的模型。你不能在本地运行它。好吧,看看NVIDIA刚刚发布了什么。对。你可以运行一个4050亿参数的模型。你可以将这两个新的参数链在一起。
数字,项目数字,将两个链在一起,你可以运行一个4050亿参数的模型,Meadows 3.1,4050亿。你可以在本地运行它,这令人难以置信,对吧?如果你不了解这些东西,我甚至无法解释,对吧?但是你可以在本地运行这么大的模型这一事实,太棒了。所以
GPT-4.0,大小只有十分之一,却更强大。这为什么重要?好吧,看看他们所谓的“小型模型”,他们的小型语言模型GPT-4.0 mini,80亿参数。这很小。好了。一年后,智能手机的下一代智能手机。
将能够容纳一个80亿参数的大型语言模型,对吧?边缘AI。现在,通常大多数边缘AI智能手机模型的参数在10亿到30亿之间。自从这项研究出来后,没有人做这个计算。就像我看到的第一件事一样。也许是因为我是个书呆子,但我心想,等等,GPT-4.0只有80亿参数?
而且它仍然非常强大,在MMLU上的得分为82,对吧?将MMLU视为,你知道的,我知道更多的人正在关注MMLU pro或其他基准。我喜欢MMLU。这是一个已经存在很长时间的不错的标准。你可能会认为,好吧,这是一个很大的下降,对吧?从,呃,你知道的,GPT-4-0的88.7到82,呃,
使用GPT-4.0。它是一个80亿参数的模型。这很小。让我们看看其他一些大小相同的模型,至少我们知道参数,并且我们有MMLU分数。LAMA,32.11亿。所以一个更大的模型,技术上来说,73 MMLU。好了。微软的5.3。它是一个70亿参数的模型。
65 MMLU,好了,如果你对MMLU分数一无所知,对吧,呃,他们会为0.1%而战,对吧,就像当你达到88分、89分时,0.1、0.2、0.3的改进是巨大的,OpenAI
正在默默地碾压小型语言模型游戏。这为什么重要?第一,我告诉过你,边缘AI,对吧?理论上,你将能够在本地运行这样的东西。谁知道呢?也许OpenAI有一天会允许这样做。也许这将导致我们实际上在我们的设备上拥有一个最先进的模型,对吧?谁知道呢?也许iPhone 18可能会安装GPT-5 Mini,对吧?
在本地运行,就这对人类意味着什么、对社会意味着什么、对工作意味着什么而言,这太疯狂了,因为那时真的没有理由,对吧?对于世界上任何人来说,都像,不,我们的组织不会做这个AI的事情。他们正在默默地碾压小型语言模型游戏。没有人关注。除了边缘AI之外,这为什么还重要?好吧,我相信在未来,
我们将使用数千个小型语言模型。我认为你的O1、你的O3,这些推理模型,它们将采用,让我们假设一个GPT-5-0 mini。让我们假设,让我们假设有一个GPT-5-0 mini。让我们假设我们有一个O3。我相信O3将开始取代
强化学习与人类反馈将成为强化学习与推理反馈。你将拥有这些推理模型进行微调,对吧?这就是我们进入AGI和ASI之间界限的时候,对吧?但是AI将创建数千个这些小型模型的版本。
我认为我们将拥有所谓的模型混合。请务必收看我们两周后的2025年预测节目。我将讨论这个问题,对吧?我们几年来都有这个叫做专家混合的东西。我认为我们将拥有一个叫做模型混合的东西。我认为我们实际上将使用
大型语言模型中的数千个小型语言模型。前端模型将要做的是聚集信息并协调大型语言模型去做事情。好了。最后我有点书呆子气了,各位,但是让我这样结束吧。好了。因为这很长,很长的一集。对不起。如果你还在跑步机上,对不起。
我给了你三个原因,为什么OpenAI可能不会赢得小型语言模型竞赛。我给了你三个原因,他们可能会赢。我问了观众,你们认为谁会赢?所以让我这样结束吧。是的,OpenAI将在2025年赢得大型语言模型竞赛。但是,他们实际上有竞争对手。
因为如果你看看从2022年11月ChatGPT发布到2024年11月的24个月,对吧?24、25个月,这是一场单人比赛。甚至都不接近。我认为谷歌在2024年12月拥有有史以来最好的一年,在AI方面,对吧?
不仅仅是从大型语言模型的角度来看,而是从生成式AI的角度来看。大量我认为将非常有用且实际上会被使用到的功能。在最初的两年里,OpenAI独自运行。然而,他们仍然在创新,而且我不得不说,他们仍然占据主导地位。
对。微软排名第一,苹果排名第二,有一个原因,他们选择OpenAI来推动其设备、技术和软件的未来。对。苹果和微软都很聪明。他们构建自己的模型。然而他们说,啊,我们将使用OpenAI作为我们未来的一大部分。OpenAI做到了这一点,他们知道。
如果我是Sam Altman,如果我在OpenAI的领导层,我知道这是一场单马比赛,持续了两年。现在不是了。所以是的,我们将看到OpenAI走向不同的方向。是的,他们可能会在追求AGI、ASI、他们的操作员代理以及所有其他事情时分心。但他们现在知道谷歌已经紧追不舍了。可怜的Claude,可怜的Claude。
我认为Claude在10年后可能会成为那些悲伤的故事之一,每个人都会说,哦,还记得Claude吗?我不知道,也许他们会被亚马逊收购,或者被亚马逊收购,或者他们只是逐渐消失。我认为,你知道的,至少回到我们最初的三点,我认为Claude不在比赛中。我认为他们不在。但我认为OpenAI将赢得这场比赛,但这将比以前更接近。
在最初的两年里。我希望这有帮助,各位。如果是这样,请访问youreverydayai.com。注册我们的免费每日新闻通讯。此外,在我们的网站上,有很多信息。就像我说的,数百集,无论你关心什么。你关心人力资源吗?我们为此设有一个类别。向人力资源领导者学习。你关心营销吗?我们为此设有一个类别。你关心企业技术吗?我们已经与专家们谈过了。
从字面上看,我们的网站youreverydayai.com是你新的好朋友。如果你的2025年目标之一是更好地学习AI,那么没有比这更好的、无偏见、无废话的资源了。所有这些都是免费的。在那里注册我们的新闻通讯。感谢你们的收听,各位。我希望这有帮助。如果是这样,如果你正在收听播客,请订阅频道,给我们评分,所有这些好东西。如果你
正在网上收听,请点击转发按钮,与需要知道的人分享。感谢你们的收听。我们明天和每天都会回来,带来更多Everyday AI的内容。谢谢,各位。今天的Everyday AI就到这里了。感谢你们的收听。如果您喜欢这一集,请订阅并给我们评分。这有助于我们继续前进。更多AI魔法,请访问youreverydayai.com并注册我们的每日新闻通讯,这样你就不会被落下。去打破一些障碍,我们下次再见。