欢迎来到AI Unraveled全新特别深入探讨节目。很高兴来到这里。本节目,一如既往,由Etienne Newman创作和制作。
他是一位资深工程师,也是一位充满激情的足球爸爸,正在加拿大收看节目。他确实如此。嘿,在我们开始今天的AI新闻之前,有一个快速但非常重要的请求。如果您喜欢我们在这里所做的工作,如果这些深入探讨对您有所帮助,我们希望如此。没错。请现在花一秒钟时间。在您收听播客的任何地方找到我们,尤其是Apple Podcasts,然后点击“喜欢”和“订阅”按钮。这对我们来说意义重大。它确实有助于其他人找到节目。谢谢大家。好的,谢谢。
那么让我们开始吧。今天是2025年5月2日,我们将深入探讨今天一些最重大的AI发展。是的,我们已经筛选了很多内容。新闻报道、研究论文、公司公告。所有方面。这里的想法很简单。我们想为您提供重要的要点,关键的结论,而无需您花费数小时来阅读所有内容。就像您的AI信息快捷方式一样。
让您了解信息,但不会感到不知所措。没错。我们的目标是为您提取核心见解。我们研究了从大型科技平台变化到新模型发布以及AI在一些令人惊讶的地方出现的所有内容。应该很有趣。我们从哪里开始?让我们从我们都熟悉的名字Google开始。他们正在通过其搜索中的AI模式做出相当重大的举动。啊,是的。这在搜索实验室里已经酝酿了一段时间了,对吧?
仅限选择加入。就是这样。但更新是它正在走出实验阶段。不再有等待名单。他们实际上开始将其作为独立标签推出,最初只面向一小部分美国用户。好的,所以更显眼,不再隐藏在实验室里了。
正是如此。那么这个AI模式有什么不同呢?与仅仅搜索某些内容相比,它实际上做了什么?最大的区别在于,这个由Gemini驱动的对话界面就在您的搜索结果中。它允许您提出更复杂的问题,例如多部分查询。那种您通常需要进行五次不同搜索才能得到答案的问题。没错。它不是只提供链接,而是为您综合答案。至关重要的是,它还包括指向其使用的网络来源的链接和引用。
哦,好的。所以它展示了它的工作过程,可以这么说。这与他们已经拥有的AI概述不同,不是吗?是的,它看起来更集成,更详细,并带有来源信息。它不仅仅是一个摘要片段。有趣。
有趣。就像一个内置的研究助手。这个AI标签还有什么其他新功能吗?是的,还有一些不错的东西。他们为产品和地点添加了这些视觉卡片。例如,如果您搜索咖啡机。是的。您可能会看到一张卡片,显示来自不同商店的实时价格,也许还有一些评论片段、库存水平等等。对于地点也是如此。
比如餐馆。同样的想法。您可能会看到营业时间、位置,也许还有最近的评论,所有这些都整合到这个视觉卡片格式中。
他们还在桌面上添加了一个历史面板,因此您可以轻松返回之前的AI聊天会话。这个历史面板听起来确实很有用,特别是如果您在一个主题上深入研究时。当然。这使得回顾您的思考过程更容易。稍微退一步,为什么Google要将黄金地段——一个完整的标签——专门用于搜索中的AI?这里的大方向意义是什么?我的意思是,这确实标志着一次重大转变,不是吗?
Google正在超越仅仅是一个链接列表。他们将自己定位为更像是一个AI驱动的知识伙伴或管家,也许是知识管家。我喜欢这个说法。是的。这种更深入的集成表明,搜索的未来可能不再仅仅是关键词,而是更多地进行自然对话以查找复杂信息。令人着迷。好的,让我们换个话题。基准测试。对于跟踪AI进展至关重要,但可能并不总是那么简单。关于Elmarina有一些讨论。
啊,是的。Elmariner或聊天机器人竞技场。它已经成为每个人用来查看不同AI模型如何根据人类在面对面比赛中偏好的排名的地方。众包排名。对。它在任何地方都被引用,但现在出现了一些反对意见。确实如此。一项涉及Cohere Labs、麻省理工学院和斯坦福大学研究人员的新研究基本上质疑这些排名的有效性和公平性。鉴于其影响力,这很重要。他们主要关注什么?他们指出了哪些问题?
实际上,有几件事。首先,他们认为其中可能存在固有的系统性偏差,这些偏差可能无意中偏向大型科技公司的模型。你知道,Meta、Google、OpenAI。啊,老朋友们。他们以某种方式拥有优势是有道理的。还有什么?他们还谈到了过拟合。这个想法是,模型可能只是在El Marina上使用的特定类型的提示和比较方面变得非常出色,而并非整体上更好。所以,TGIFs
本质上是应试教育。有点像,是的。也许最重要的一点是缺乏关于平台如何工作、模型如何采样、投票如何加权等等的透明度。缺乏透明度在科学中始终是一个危险信号。他们是否有具体的证据或例子来支持这些说法?他们有。例如,他们认为顶级实验室可能在内部测试大量略微不同的模型版本,然后只将他们绝对最好的参与者提交到公共竞技场。可能是挑选最好的。好的。
好的,这绝对可以夸大感知到的性能。他们发现,来自Google和OpenAI的模型一起获得了大约60%以上。
平台上所有用户互动和投票的比例。哇,只有这两个就占了60%。是的,这自然会给他们提供更多数据点、更多可见性,以及可能更好的排名,仅仅是因为数量庞大。他们的实验表明,如果您让模型访问ARENA用于评估的数据,那么它在ARENA特定任务上的性能就会显著提高。
这更暗示了过拟合的想法,学习基准测试的怪癖,而不是在总体上变得更聪明。这是对过拟合论点的令人信服的证据。还有一件事,他们注意到大约205个模型只是消失了,随着时间的推移从排行榜上默默删除。有趣的是,开源模型被淘汰的比例高于专有模型。哎呀,这看起来不太好,不是吗?特别是默默删除和开源差异。所以,
如果这些担忧成立,那么我们应该如何看待像El Arena这样的基准测试呢?
好吧,这意味着我们可能需要用更大的谨慎态度来看待这些排名。你知道,如果有偏差,如果有明显的过拟合,排行榜可能就不是人们通常认为的最佳AI的客观衡量标准。对。它确实突出了这个持续存在的挑战。对。我们如何构建真正客观、真正透明且对所有人(大型参与者和小型实验室)都真正公平的AI评估方法?这是一个重要的讨论。好的,继续讨论AI。
实际模型开发。微软似乎正在凭借一些新的较小模型掀起波澜。没错。他们刚刚在其5系列中发布了几个新模型。他们称之为SLM,小型语言模型,特别是5.4推理,它有140亿个参数。听起来很大,但在当今世界实际上有点小。没错。甚至更小的5.4迷你推理只有38亿个参数。关键是,正如名称所示,它们非常注重强大的推理能力。有趣。我们听到很多关于模型越来越大,数百亿、数万亿个参数的消息。为什么关注较小的模型?有什么好处?效率。这是这里的关键。目标是获得强大的AI能力,特别是推理能力,用于没有大量计算资源的设备。
想想智能手机、边缘设备,也许还有微软正在大力推广的新型副驾驶Plus PC。对。在本地运行强大的AI,而无需始终依赖云。这些较小的模型的实际性能如何?嗯,报告实际上相当令人印象深刻。他们声称140亿
等等,140亿与6710亿在推理方面匹配?这太大了。真的。这是一个很大的说法,是的。
而较小的那个,38亿参数的迷你版本,他们说它可以直接在移动设备上运行,但在数学任务上的性能仍然与旧的70亿参数模型相当。哇。因此,您可以在手机上直接进行相当复杂的推理,而不会立即耗尽电池电量。这就是愿景。绝对如此。
另一个非常重要的一点是,所有这些新的FI模型都是开源发布的。哦,完全开放。是的,具有宽松许可证。这意味着开发人员可以获取、使用、修改它们,甚至用于商业产品,而无需受到严格的限制,这可能会真正刺激创新。
这太棒了。因此,最大的收获是在优化AI方面取得了重大进展,有可能将高级推理能力降低到日常设备,并以开放的方式进行。没错。它向您展示了,您并不总是需要规模才能在推理等特定能力方面取得令人印象深刻的结果。
更智能的设计也很重要。好的,让我们转向更实际的东西。显然,由于ChatGPT,构建网站可能会变得容易得多。是的,这很巧妙。对于使用ChatGPT的用户,特别是像O3这样的更高级模型,有一个名为Canvas的功能,它使简单的Web开发可能更容易访问。画布。好的,那到底是什么?把它想象成ChatGPT聊天窗口中的交互式编码沙箱。
您可以要求它生成代码,但您也可以编辑它、改进它,并且至关重要的是,您可以直接看到结果。看到结果?就像它渲染了一个网站?是的,它支持渲染HTML,这是网页的基本结构,也支持React,这对于制作交互式网站非常流行。因此,当AI输出代码时,
您可以实际看到它看起来的样子。哇!然后您可以告诉它,好的,更改该按钮的颜色或在此处添加一个部分,它会更新代码,您会看到预览发生变化。这是非常迭代的。这听起来非常直观。比在文本编辑器和浏览器之间来回复制代码容易得多。您将如何实际使用它?步骤是什么?非常简单。根据我们看到的资料,您将进入ChatGPT,确保您选择了O3模型,然后打开Canvas功能。然后……
你需要一个好的提示。描述您想要的网站。我想应该是具体的。是的,越详细越好。是的。它的用途、它需要的功能、一般的设计理念、它的工作方式。然后ChatGPT生成代码。您点击预览按钮,看看它是什么样子。然后通过要求更改来调整它。没错。继续使用提示来改进它。一旦您满意,您就可以将整个内容保存为HTML文件。
然后,为了实际将其发布到网上,提到的来源是使用Cloudflare的页面。他们有一个简单的直接上传选项,您只需将HTML文件拖放到其中即可。哇。因此,从文本创意到一个实时(尽管很简单)的网站,速度非常快,这确实
确实降低了门槛,不是吗?- 绝对如此。我的意思是,这里最大的意义在于,像这样的工具使基本的Web创建等技术任务更容易访问。非常适合快速制作简单的项目、原型、登录页面,而无需深入的编码技能。- 太酷了。好的,另一个大玩家正在行动。亚马逊,他们显然已经推出了一种新的顶级AI模型。- 没错。
亚马逊推出了Nova Premier。他们将其定位为其Nova Foundation模型系列中最强大的模型。它现在可通过亚马逊Bedrock(他们的AI平台)获得。Nova Premier。好的,是什么让它成为顶级产品?它的优势是什么?它的主要特点是
似乎是它的多模态能力,可以处理不同类型的数据,以及非常大的上下文窗口。它可以处理多达一百万个标记。一百万个标记。这太大了。它可以处理哪些类型的数据?文本、图像和视频。不过,有趣的是,目前不包括音频。亚马逊强调了它在知识检索和理解该巨大上下文中的视觉信息方面的技能。一百万个标记。
大约有多少文字?估计约为75万字。因此,您可以向其提供大量的文档或长视频,并让它进行分析。令人印象深刻。与Google或OpenAI的竞争对手相比,它的表现如何?这很有趣。亚马逊自己的内部测试显然表明,在一些标准基准测试(数学、科学、编码)方面,它落后于Gemini 2.5 Pro等竞争对手。哦,好的。所以并非在所有方面都名列前茅。似乎并非在所有方面,是的。
但他们说它在编排复杂的多个代理工作流程方面确实非常出色。想想涉及多个步骤或协调不同AI代理的任务。他们提到了强大的性能,特别是在财务分析和投资研究方面。啊,所以可能不太关注纯粹的基准分数,而更多地关注在复杂业务流程中的实际应用。这可能是重点。是的。
他们还在推动其作为教师模型的作用。教师模型,是什么意思?意思是他们使用这个强大而强大的Nova Premier模型来训练较小的、更专业的Nova模型,例如Nova Pro和Nova Micro,用于特定的企业用途。这是一个称为蒸馏的过程。对。将知识从大型模型转移到较小的、更便宜的模型。没错。他们声称,这种BidRock模型蒸馏功能可以将这些较小模型的性能提高多达20%。
这很聪明。因此,Nova Premier是他们用于复杂多模态任务的高端产品,也是为企业创建更定制、更具成本效益的AI的引擎。正是如此。它确实突出了行业趋势。构建一个庞大而强大的基础模型。
然后用它来产生大量较小的专业模型。有道理。好的,让我们谈谈人才。实际构建所有这些AI的人。英伟达首席执行官黄仁勋对全球形势发表了一些看法。他确实如此。在华盛顿特区的山谷论坛上发言时,黄仁勋发表了一个相当令人大开眼界的声明。他估计,全世界大约一半(50%)的AI研究人员是中国人。
50%。哇。这是人才的高度集中。他向政策制定者提出这一点的目的是什么?他的信息基本上是一个警钟。他敦促美国政策制定者在考虑与中国的技术竞争时真正考虑到这一点,他称之为无限游戏。意思是它正在进行中。没有最终的赢家。对。他的核心论点是,为了保持美国的竞争力,它需要全力以赴地投入AI和政治。
至关重要的是,大力投资于员工再培训,而不仅仅是技术工人。他特别提到了需要对许多部门进行再培训,甚至包括建设AI所依赖的基础设施所需的熟练技工。这是关于广泛的劳动力准备情况。因此,这不仅仅是拥有精英AI研究人员,还包括拥有一个能够与AI合作并从中受益的整个社会。这正是其含义。该
结论是,这场全球竞争不仅仅关乎算法或芯片。它从根本上关乎人力资本、人才以及适应整个劳动力。劳动力准备情况是关键。一个非常重要的观点。现在,再次将重点转向教育,但从不同的角度来看。
方式。我们听说过Duolingo,但德克萨斯州的一所学校实际上正在将AI用于核心教学。是的,这非常疯狂。德克萨斯州名为Alpha School的私立学校网络正在使用AI导师和自适应学习软件来教授数学和英语等主要科目。AI是核心科目的主要教师。这需要多长时间?根据福克斯新闻的报道,他们声称学生使用这些AI工具每天大约学习两小时。两小时。这似乎非常快。
那么人类教师做什么呢?他们被描述为指导者。他们的角色转变为领导下午研讨会,重点关注其他技能,例如协作、创造力、批判性思维,并在需要时提供更个性化的支持。有趣。因此,AI负责知识传递,人类负责应用和高阶技能。效果如何?好吧,学校声称这导致了学习加速和高考试成绩。
福克斯新闻的报道还指出,学生们自己似乎对它也有积极的反应。好的,因此据报道取得了积极的结果。
如果这种模式流行起来,更大的意义是什么?K8中的深度AI集成。这是一个非常引人入胜的案例研究,不是吗?它可能会彻底重新定义教师的角色,使学习更加个性化。但也有很多问题。对社交技能、对深入理解与仅仅是考试成绩的长期影响是什么?这是否能够经济高效地扩展到公立学校?有很多需要考虑的地方。绝对如此。还处于早期阶段,但绝对值得关注。
现在,AI也出现在法庭上,或者至少引起了法律纠纷。告诉我们关于这个Meta诉讼案。对。这涉及一位保守派活动家Robbie Starbuck,他正在起诉Meta平台。索赔是诽谤,特别是Meta的AI聊天机器人。聊天机器人诽谤了他。如何?诉讼称,Meta AI传播了关于他的不实信息。
例如,声称他参与了1月6日的国会大厦骚乱,或者他有犯罪记录,他说这些都是不真实的。哇,这些都是由AI生成的严重指控。他要求什么?据报道,他要求赔偿超过500万美元。
他的论点的一个关键部分是,Meta据称即使在这些不实陈述被标记后也没有采取足够的措施来纠正它们。这带来了AI幻觉编造事情的整个问题,但带来了真实的法律后果。没错。这是一个巨大的挑战。随着这些AI在听起来像人类方面变得越来越好,它们生成令人信服但虚假且可能造成伤害的信息的风险也在增加。而法律问题是巨大的,对吧?谁负有责任?
这就是一百万,或者在这种情况下是五百万美元的问题,不是吗?是部署AI的Meta吗?是AI本身吗?这在现在是不可能的。是它接受训练的数据吗?此案确实突出了我们在AI生成内容和平台责任方面所进入的棘手的法律和伦理领域。绝对是一个需要密切关注的领域。
好的,另一个来自大型科技公司。微软可能正在与OpenAI以外的另一个AI参与者建立密切关系。似乎是这样。路透社的报道称,微软正在准备其Azure云平台以托管Grok。Grok!那是埃隆·马斯克的XAI模型,对吧?在Azure上托管它。就是这样。如果发生这种情况,Grok将加入Azure AI Foundry平台的阵容
形式,与Azure已经提供的来自OpenAI、Meta、Mistral AI和其他模型一起。考虑到微软与OpenAI的深厚联系,这是一个有趣的举动。他们也会训练Grok吗?报告表明,至少最初的重点只是托管Grok进行推理。
这意味着让Azure客户将已经训练好的Grok模型用于他们自己的应用程序,而不是提供从头开始训练它所需的大量资源。明白了。所以让Grok成为Azure客户可以构建的另一个选项。这告诉我们微软的战略是什么?好吧,它确实加强了他们将Azure打造成为
AI的“一站式商店”,不是吗?他们希望成为企业可以访问和部署任何主要AI模型的平台,而不仅仅是微软最密切合作的那些模型。广撒网,提供选择,无论本周哪个AI模型很热门,都能让客户锁定在Azure上。差不多就是这样。这是关于成为AI革命中不可或缺的基础设施层,提供最大的灵活性。具有战略意义。
好的,哇。我们已经涵盖了许多重要的新闻,但AI新闻源总是全速运转。让我们快速回顾一下今天其他一些值得注意的事件。绝对如此。它一直很忙。例如,微软的萨蒂亚·纳德拉提到,AI现在正在编写微软自身代码的很大一部分。这是一个重要的内部采用指标。是的,我们听到Google也说了类似的话。它发展得很快。但另一方面,微软首席财务官艾米·胡德警告说,由于需求非常高,可能会出现……
Azure的AI服务中断,成长的烦恼。- 即使是巨头也面临的容量限制告诉您AI正在消耗多少计算资源。还有什么?- 有报道称,AI可能会开始对新毕业生的就业市场造成更大的冲击,这是一个需要关注的问题。也许可以预测的是,Google开始将其广告插入用户与第三方AI聊天机器人进行的对话中。- 广告和聊天机器人,知道这最终会到来。
货币化再次出现,任何新的产品发布。是的。
Meta显然已经推出了一款使用其Llama 4模型的独立AI应用程序,并具有语音交互功能,试图创造更个性化的助手体验。另一个AI助手加入了竞争。我们之前提到的Duolingo,他们推出了一次重大更新,增加了148门新的初级语言课程,所有这些课程都增强了AI功能。教育科技领域的AI似乎正在加速发展。模型更新或问题呢?好吧,OpenAI出现了一些小问题。
他们暂时暂停了其最新的GBT 4.0更新的推出,因为一些用户发现它过于顺从或谄媚。他们说他们现在已经调整了它。太渴望取悦了。有趣的问题。是的。在性能方面,一些报告声称Meta的Llama API现在运行速度明显快于OpenAI的,这可能是由于他们达成的一些硬件合作关系。竞争在那里加剧了。有趣。还有什么其他业务举动?Airbnb悄悄推出了AI客户服务机器人。
Visa推出了一些AI驱动的信用卡,尽管关于这到底意味着什么的细节还很少。AI无处不在。资金仍在流入。哦,是的。宣布了许多融资轮。Cast AI、Astronomer、Edge Runner AI、Ampli、Hilo、Solda.ai。资金仍在涌入AI初创公司。
微软还承诺对华盛顿州的AI项目进行更多投资,重点关注可持续性和健康等方面。很高兴看到州一级也关注这个问题。研究和政策方面。好吧,我们讨论过的关于LM竞技场基准测试中潜在偏差的研究
在研究界引起了波澜。此外,另一份报告指出,尽管存在各种炒作和担忧,但生成式AI实际上尚未对整体就业或工资产生重大负面影响。然而,关键在于“然而”,也许吧。最后,Anthropic发布了其Claude模型的集成,使其更容易连接到其他工具。AI音乐公司Suno将其平台更新到4.5版。
Google有简短的语言课程。哦,还有关于微软和OpenAI之间持续紧张关系的传闻,即使微软计划托管Grok。
地表之下发生了很多事情。它确实是永不停歇的。一场旋风。好的,在我们结束这次旋风般的深入探讨之前,我真的很想强调一些非常有价值的东西,特别是如果所有关于AI、云、网络安全的讨论让您考虑自己的技能和职业道路的话。您真的需要了解AI驱动的Jamga Tech应用程序。哦,是的,Etienne的平台。没错。由AI Unraveled的幕后推手Etienne Newman创建,
听着,Jamgat Tech专门设计用于帮助任何人,认真地说,任何人掌握并绝对掌握50多种最热门的行业认证。而且它涵盖了很多领域,对吧?不仅仅是AI。完全正确。我们谈论的是关键领域,例如云计算、AWS、Azure、Google Cloud、网络安全、金融、业务分析,甚至医疗保健IT。
非常实用、高价值的领域。那么它如何帮助您掌握这些证书呢?应用程序内部有什么?这是最好的部分。它包含了您实际需要的资源。例如PBQ(基于性能的问题),这些是您在实际考试中遇到的那些棘手的实践场景。哦,是的,这可能很难。非常难。
它还包含交互式测验、用于强化关键事实的非常高效的抽认卡、实践实验室,让您获得实践经验,以及完整的逼真考试模拟。它涵盖了学习和测试的所有方面。听起来很全面。确实如此。因此,如果您觉得需要提升技能、改变职业方向或在这些技术驱动型领域领先一步,那么Jamgatech坦率地说是一个非常棒的工具,可以帮助您掌控局面。我们稍后会再次提到如何找到它。好的,让我们尝试将所有这些整合在一起。今天,
2025年5月2日是AI世界又一个忙碌的一天。一点没错。我们看到Google将AI更深入地推入核心搜索体验。我们看到人们对如何使用Elmarina等基准测试来衡量AI进展提出了重要的问题。微软展示了令人印象深刻的结果,使强大的推理模型更小、更高效,并将其开源。对。我们还看到了像ChatGPT Canvas这样的AI工具如何使网站创建等工作更容易访问。
亚马逊推出了其大杀器Nova Premier,用于复杂的多种模式任务和训练较小的模型。我们听说了英伟达首席执行官对全球人才格局的看法,AI在德克萨斯州学校的潜在影响,以及围绕Meta诉讼案中AI生成的虚假信息而日益增长的法律难题。此外,微软可能托管Grok,以及关于资金、产品发布、性能调整的整个更新流……
它只是永不停歇。它的广度总是让我印象深刻。AI不仅仅是一件事,它正在将自己编织到从搜索和编码到教育和金融的一切事物中。确实如此。这让我们留下了一些需要思考的大问题,不是吗?随着这项技术如此快速地发展,
我们作为个人和作为一个社会如何跟上?是的。我们如何调整我们的工作、技能、教育体系?当事情发展如此迅速时,负责任的部署到底是什么样子?我们如何平衡兴奋和潜力与谨慎、道德以及确保这些工具真正造福所有人的需求?这些问题并不容易回答。一点也不。也许关键的结论是,虽然技术竞赛领先,但我们对它全部影响的集体理解以及如何最好地管理它
它仍在努力喘息。说得很好。我们进行深入探讨的目标,一如既往,是为您提供必要的概述,那些顿悟的时刻,希望让您理解关键发展,而不会让您感到完全不知所措。希望我们今天达到了您的目标。如果您想更深入地研究,不仅要理解人工智能,还要积极培养这些关键技术领域的技能,认真地说,请查看Jamgatech应用程序。
探索认证,查看学习工具、PBQ、实验室、测验,并采取措施提升您的职业生涯。只需在您的应用商店中搜索Jamgat Tech 或访问DJamgatTech.com。绝对值得一看。非常感谢您加入我们,参加这次关于人工智能解开的特别深入探讨。最后一次,如果您觉得这很有价值,请在Apple Podcasts或您收听的任何地方点赞和订阅。这有助于我们继续为您带来Etienne Newman的这些见解。
谢谢大家。下次再见,感谢收听。