We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI Daily News May 07th 2025: 🤖Amazon Reveals 'Vulcan' Warehouse Robot With Sense of Touch 📱Apple Explores AI Search Partners for Safari Amid Google Usage Dip 🌍OpenAI Launches Initiative to Help Nations Build AI Infrastructure and more

AI Daily News May 07th 2025: 🤖Amazon Reveals 'Vulcan' Warehouse Robot With Sense of Touch 📱Apple Explores AI Search Partners for Safari Amid Google Usage Dip 🌍OpenAI Launches Initiative to Help Nations Build AI Infrastructure and more

2025/5/8
logo of podcast AI Unraveled: Latest AI News & Trends, GPT, ChatGPT, Gemini, Generative AI, LLMs, Prompting

AI Unraveled: Latest AI News & Trends, GPT, ChatGPT, Gemini, Generative AI, LLMs, Prompting

AI Deep Dive Transcript
People
E
Etienne Newman
Topics
亚马逊公司最新研发的Vulcan仓库机器人,最显著的特点是它拥有触觉。这标志着自动化技术上的一大飞跃,因为它能够以更高的精度处理各种物品,并且不会造成损坏。Vulcan机器人利用先进的力反馈传感器和经过大量物理交互数据训练的AI系统,能够感知所需的压力,并精确控制施加的力。目前,Vulcan机器人已在部分亚马逊仓库投入使用,预计将显著提高仓库的效率和安全性,并为其他领域(如老年护理和手术)的应用开辟新的可能性。 OpenAI可能计划大幅调整与微软的收入分成协议,这反映了OpenAI快速发展的规模和对更多财务自主权的追求。目前,OpenAI与微软的合作协议中,微软获得OpenAI营收的20%,但OpenAI计划在2030年前将这一比例降至10%。此举可能预示着两家公司之间权力动态的变化,以及OpenAI在AI领域日益增长的影响力。 苹果公司正在探索Safari浏览器的AI搜索合作伙伴,因为谷歌搜索在Safari上的使用率首次下降。这一变化主要归因于用户转向使用AI工具而非传统搜索引擎。苹果公司正在考虑与OpenAI、Perplexity和Anthropic等公司合作,以在Safari浏览器中提供替代的搜索选项。这一举动可能对苹果与谷歌之间的长期合作关系以及搜索引擎市场格局产生重大影响。 OpenAI启动了一项新的倡议,旨在帮助各国建立主权AI基础设施。该倡议旨在与各国政府合作,为其提供技术支持、定制的AI模型以及其他资源,以满足其在医疗、教育等领域的特定需求。这项倡议不仅有助于促进AI技术的全球普及,也可能对各国的数据安全和AI治理产生深远的影响。 Google Gemini 2.5 Pro在编码和网页开发方面取得了显著的改进,并在排行榜上名列前茅。它在WebDev Arena和通用聊天机器人领域均超越了其他顶级模型,展现了Google在大型语言模型研发方面的实力。Gemini 2.5 Pro还具备新的视频理解能力,能够将视频内容转化为交互式学习应用程序。 HeyGen更新了其AI化身技术,使其能够表达更丰富的感情,这使得使用这些化身制作的视频更自然、更引人入胜。Zapier允许用户创建自己的个人AI助手来管理个人财务,这使得自动化变得更容易获得。Lightricks开源了其AI视频模型LTX,这将加速AI视频领域的创新。AI正在使无人机能够更智能地运送医疗物资,这极大地改善了偏远地区和灾区医疗保健的可及性。在亚利桑那州的一场法庭听证会上,受害者家属使用AI技术制作了一段受害者发表受害者陈述的视频,这引发了关于AI技术在司法系统中作用的伦理和法律问题。Anthropic启动了一个名为“AI for Science”的项目,为科学家提供免费的AI工具,以加速科学发现,特别是生命科学领域的发现。Reddit计划加强用户验证,以打击模仿人类用户的AI机器人。WebThinker是一个AI代理框架,能够自主浏览网页,提取信息并撰写报告,这使得大型推理模型能够更好地进行复杂的研究。

Deep Dive

Shownotes Transcript

欢迎来到AI Unraveled的新深度探讨,这是由Etienne Newman创建的播客,他是一位资深工程师,也是一位热情的加拿大足球爸爸。大家好。如果您喜欢这些节目并觉得它们很有价值,请花一点时间在Apple Podcasts上点赞和订阅。这真的对我们很有帮助。真的。如果您正在考虑升级您的生产力工具,或者正在探索一些AI功能,

请查看节目说明。我们有一个推荐链接和Google Workspace的折扣码。是的,您可以获得Gemini PRO。

Notebook Om、Teams,以及许多有用的东西。没错。还要快速提及一下,对于任何正在攻克那些艰难的技术认证的人来说,Etienne的AI驱动的Jamgatech应用程序就是为此而设计的。它涵盖了50多种PBQ和模拟密集型证书。绝对值得一看。好的,欢迎回到深度探讨。我们的想法,一如既往,是提取您正在关注的来源的关键信息,并希望快速为您提供清晰的画面。是的。

今天,我们将深入探讨2025年5月7日人工智能新闻和发展。范围相当广泛。我们有机器人学习,嗯,感受事物,主要人工智能伙伴关系的潜在转变,以及各种事情。应该有一些有趣的联系,也许还有一些惊喜。绝对的。

绝对的。好的,我们从哪里开始?也许是从亚马逊的仓库开始。听起来不错。他们有一个新的机器人,Vulcan。就是那个。Vulcan真正有趣的部分是,嗯,它有触觉。一个可以感知的机器人。哦。好的,这听起来像是从仅仅移动东西到一个相当大的飞跃。这是如何工作的?它使用力反馈传感器。对。它背后的AI已经接受了大量关于物理交互的数据训练,因此它可以处理更多不同类型的物品,精确地处理它们,并且至关重要的是,不会损坏它们。所以它不仅仅是抓取,它是在感知所需的压力。没错。它知道要使用多少力。虽然这对仓库来说意义重大,但想想其他领域,也许是老年护理,甚至未来的手术,在这种情况下,这种精细的触觉至关重要。

这是一个很好的观点。这也引发了关于需要精细动作技能的工作的问题。但就目前而言,在仓库里,它与人们一起工作,对吧?正是如此。其理念是Vulcan承担对人体工学来说很困难的任务,你

你知道,不断地向上伸手或向下弯腰。所以这是关于效率和安全的问题。这是目标。提高仓储中心的安全性,提高效率。它现在实际运行了吗?是的。它正在运行。目前在华盛顿州和德国的一些特定亚马逊设施中。好的。

你提到它处理很多不同的物品。是的。据称,它被设计用来拣选和放置他们库存的所有产品类型的四分之三左右。你知道,以前几乎完全由人类完成的任务。四分之三。哇。好的。

这是一项非常重要的工作。绝对是。退一步说,为这样的自动化添加可靠的触觉是一个重大的进步。它只是拓宽了机器人可以安全有效地完成工作的范围,从简单的重复转向更细致的任务。好的,机器人变得更灵巧了。让我们稍微改变一下方向,也许转向商业方面。大型AI参与者之间的关系,OpenAI。

和微软。对。有一份来自《信息》的报告表明,OpenAI可能正计划大幅调整其与微软的收入分成协议。调整方式?微软在OpenAI上投入了很多,不是吗?数百亿美元。是的。是的。

目前的协议据报道给予微软OpenAI前20%的收入,一直持续到2030年。20%是相当大的。是的。但是根据这些财务文件,《信息》看到OpenAI希望到2030年将合作伙伴的这一比例降低到10%。目前的协议不仅仅涉及收入分成。哦,是的。它涵盖了利润分成、知识产权。OpenAI的API专门在微软Azure上运行,这是一个深度合作关系。那么为什么会有潜在的变化呢?OpenAI的

OpenAI现在感觉更独立了吗?这似乎很可能。你知道,他们的规模正在以惊人的速度增长。这可能反映出,随着他们的技术被广泛应用,他们对更多财务自主权的追求。说得通。但微软对此有何感受?

对那项巨额投资的回报率较低?好吧,这就是个大问题,不是吗?这肯定会影响微软投资的长期财务状况。这可能预示着权力动态的转变。OpenAI不是也在重组自身吗?他们正在提议一个新的结构,作为一个公共利益公司,是的。但报告显示,微软仍然需要批准这一点,可能是为了确保他们的财务利益在转型过程中得到保护。好的,有很多变化的部分。这确实表明了这些大型科技公司之间的伙伴关系是如何不断发展的。

说到这里,苹果似乎也在重新考虑事情,尤其是在搜索方面。是的,这是另一个有趣的问题。苹果显然正在探索为Safari寻找AI驱动的搜索合作伙伴。为什么现在?是什么触发了这个?好吧,苹果的埃迪·库克最近在法庭上作证,他透露,有史以来第一次,上个月Safari上的谷歌搜索使用量下降了。哇。

他在法庭上这么说。他有没有说明原因?是的。他直接将其归因于人们转向使用AI工具而不是传统的搜索。这是一个巨大的承认。那么苹果对此做了什么?他们正在积极寻找合作伙伴。提到了OpenAI、Perplexity、Anthropic等名字。其想法是在Safari内部提供替代搜索选项。那么谷歌真的会失去它在iPhone上的默认位置吗?那笔数十亿美元的交易

突然看起来像是一个真正的可能性,不是吗?你看到了使用量的下降,加上正在进行的反垄断诉讼,无论如何都在威胁着谷歌的交易。对。反垄断的事情。没错。所以用户习惯的变化加上监管压力。看起来苹果正在认真考虑对Safari进行重大战略转变,超越谷歌。每个人都在争夺地位。

OpenAI不仅仅在与合作伙伴打交道。他们现在也着眼于全球。这个OpenAI for Countries的事情。没错。一项新的倡议,他们计划与世界各国的政府合作。目标是帮助他们建立主权AI基础设施。主权AI基础设施。好的,这实际上意味着什么?比如数据中心?是的。数据中心,是的。但是?

可能更多。这似乎与美国政府协调一致,也许就像他们Stargate项目概念的国际版本。OpenAI正在提供技术帮助,定制的AI模型,针对当地语言、当地需求、医疗保健、教育。因此,一个国家可以获得自己定制的AI,在本地运行。这就是宣传。

至关重要的是,这意味着对数据、算法,甚至可能对在其境内管理AI的伦理规则进行更多国家控制。这既雄心勃勃又昂贵。谁来支付?计划是共同融资。OpenAI和伙伴国都将投资。

OpenAI在这里的目的是什么?更大的目标是什么?他们将其定义为促进民主AI,确保技术发展符合民主价值观、人权等。所以也有一层哲学层面。绝对的。从战略上讲,你可以看到OpenAI将自己定位为国家AI发展的全球合作伙伴。它推广他们的技术、他们的做事方式、他们的民主AI轨道,正如他们可能所说的那样。但这也会造成依赖性,对吧?

当然。它培养了一个围绕OpenAI模型和原则建立的全球生态系统。这是一个非常重要的战略举措。绝对值得关注。好的,让我们回到技术本身。谷歌一直在更新Gemini,对吧?有一个新版本。是的,他们上周(实际上是5月6日)发布了Gemini 2.5 Pro的早期预览版,即I/O版本。

报告显示,它显示出一些非常显著的改进。改进在哪里,具体来说?尤其是在编码和Web开发方面,似乎是这样。好的,我们怎么知道?有基准测试吗?是的。几乎在发布后立即,它显然跃居排行榜榜首,

WebDev Arena(人类在其中对AI生成的Web应用程序进行评分)和通用聊天机器人领域。哇,两个都是第一名。它击败了其他顶级模型吗?据报道,是的。它超越了Claude 3.7 Sonnet,甚至OpenAI的O3模型,后者是之前的领导者。所以是真正的可衡量的收益,特别是对于开发人员来说。看起来是这样。增强了前端UI功能的性能,转换代码,编辑代码,构建更复杂的自主工作流程。自主工作流程。

就像AI执行多步骤任务一样。没错。它还具有新的视频理解能力。他们提到了将视频内容转换为交互式学习应用程序之类的事情。这很酷。总的来说,它在LM Arena排行榜上排名第一,击败了OpenAI的最新版本。这就是报告中指出的内容。是的。在所有类别中。它

确实表明谷歌正在努力改进Gemini并取得最先进的结果,至少根据这些人类偏好基准测试来看是这样。竞争非常激烈。一点没错。速度令人难以置信。好的,从模型的大脑到它的,嗯,脸。公平的。AI头像也变得越来越逼真了。HeyGen。绝对的。HeyGen更新了他们的Avatar技术,Avatar 3.0和Avatar 4V是新的版本。而重点是让它们在情感表达上更丰富。情感AI头像。

听起来有点科幻。他们是怎么做到的?该系统查看文本脚本或收听音频,然后生成面部表情、手势、语音语调,甚至肢体语言以匹配。

其理念是使使用这些头像的视频演示感觉更自然和引人入胜。所以它是在分析单词的含义或感觉。似乎是这样。他们有一个新的音频到表情引擎,显然是受扩散模型的启发。它分析语音以创建非常逼真的面部动作,甚至是微表情和手势。哇。它需要什么来创建一个?他们说只需要一张参考图像和一个语音脚本。

而且它显然适用于不同的主题,甚至是宠物或动漫人物以及不同的角度。Avatar 4s现在还支持肖像,

半身和全身。更加动态。他们为哪种类型的视频宣传这个?他们重点介绍了诸如网红风格的视频、唱歌的头像、游戏角色,甚至像这个播客一样的视频,但更具表现力。有趣。更广泛的含义是什么?更逼真的数字人类。差不多。这是朝着使这些互动感觉不那么机械化、更自然的方向迈出的一步。这对于营销、客户服务、教育和娱乐来说可能意义重大。

任何你想要那种人际联系的地方。从花哨的头像到实用的工具,用于个人理财的AI使用Zapier。是的,有一份指南介绍了如何使用Zapier代理。这是他们的AI自动化工具,用于构建你自己的个人理财助手。关键是你不需要编码。好的,所以我可以设置一个AI系统。

自动跟踪我的支出。这是如何工作的?基本上,是的。你连接你已经使用的应用程序,也许是Google Sheets,你的会计软件,等等。然后你用简单的英语告诉Zapier代理你想让它做什么。比如跟踪我的支出或总结我的支出。没错。或者检查这个发票是否已支付,或者提醒我支付这个账单。诸如此类的事情。

设置起来有多复杂?步骤是什么?该指南听起来非常简单。创建一个新的代理,告诉它做什么。例如,当新的发票出现在这个Google Drive文件夹中时,然后添加它需要的工具,也许是Google Drive来获取文件,ChatGPT来读取发票详细信息,Google Sheets来记录信息。然后你测试它,确保它有效,然后打开它。这实际上对很多人来说听起来都是可行的。最大的收获是什么?

这实际上是关于赋权,对吧?让非程序员能够为自己的需求构建自定义AI工具。将应用程序连接在一起,自动化烦人的任务,所有这些都只需与AI对话即可。它使自动化更容易实现。使强大的工具更容易使用。这似乎是一个主题。说到易用性,Lightrix开源了他们的AI视频模型。

听起来对开发人员来说是一件大事。这确实非常重要。Lightrix,他们制作Facetune和Videoleap等应用程序,发布了他们的LTX视频模型系列。其中包括LTX V13b,这是一个拥有130亿个参数的模型。130亿。这相当大,不是吗?是的,很大。而且他们已经将其置于开源许可下。对于收入低于1000万美元的小型实体来说,它是免费的。你可以在Hugging Face上找到它。

GitHub。它能做什么?只是文本转视频吗?文本转视频,还有图像转视频。他们重点介绍了他们称之为多尺度渲染的新技术。据说它速度快且质量高。多尺度渲染。这是如何工作的?他们描述的方式是,它有点像分层构建视频。

首先是粗略的草图,然后添加更精细的细节。他们声称这有助于平滑度和一致性。而最大的新闻是它可以在普通计算机上运行。这是一个关键点,是的。他们说它可以在消费级GPU上运行。这大大降低了进入门槛。通常,这些大型模型需要强大的、昂贵的硬件。对。还有其他很酷的功能吗?他们提到了精确的相机控制、关键帧编辑、用于排序多个镜头的工具,

听起来他们目标是相当复杂的视频创作。而且他们合作提供了训练数据。是的,与Deady Images和Shutterstock合作,这对于输出的质量和合法性非常重要。那么为什么开源呢?影响是什么?它应该会真正加速AI视频的创新。使像这样的先进工具更容易获得,可以让更多的人进行实验、构建新事物、竞争。它真的可以激起生成式视频领域。更多工具,更多创作者,更多创新。

说得通。好的,让我们转向一些非常重要的应用。使用AI无人机进行医疗物资交付。无人机生命线。是的,这是非常有影响力的事情。AI正在使无人机变得更智能、更强大,可以交付重要的医疗用品。AI是如何帮助的?

它使无人机能够做什么?好吧,首先它允许自主飞行,但也优化路线,考虑天气、地形。它帮助它们动态地避开障碍物,它也协助整个物流管理方面。而且这些东西携带疫苗、血液。没错。疫苗、血液、药品、疫苗。

重要的物品运送到难以到达的地方,偏远地区、灾区、基础设施薄弱的地方。减少交付时间一定会有很大的不同。巨大的不同。在非洲和印度的部分地区已经运行的项目显示出真正的救生潜力。这是通过克服这些后勤障碍来大幅改善医疗保健的可及性。这太棒了。真正的AI造福人类。现在,对于一些完全不同的事情,也许有点争议,AI。

美国法庭上的AI。这绝对是第一次出现这种情况。是的。在亚利桑那州,在一次致命路怒案的量刑听证会上,受害者克里斯托弗·佩尔基的家人使用AI制作了一段他发表受害者影响陈述的视频。等等,他们制作了一段已故受害者说话的视频?

如何?他们使用了AI工具,结合了他现有的照片和视频以及他们从他的角度撰写的脚本。显然,信息是原谅被判刑的人。哇。法院是如何处理这个问题的?法官怎么说?

法官承认了它的情感分量。但正如你所想象的那样,它引发了很多讨论。我敢打赌伦理问题、法律问题。是的。真实性操纵。没错。这是AI在法律环境中的一种非常新颖的应用。它引发了关于这种技术在司法系统中所扮演角色的极其复杂的问题,我们正在

才刚刚开始努力应对。绝对是未知领域。好的,让我们回到研究。Anthropic有一个针对科学家的新项目。是的,他们启动了AI for Science。目标非常

非常明确。利用AI来加速科学发现,尤其是在生物学和生命科学领域。他们是如何做到的?他们是否免费提供AI访问权限?基本上,是的。他们为选定的研究人员提供免费的API积分报告,据说高达2万美元,用于使用Anthropic模型,如CLAWD。这将支持哪种类型的研究?

诸如分析海量数据集、为实验生成新的假设、帮助设计这些实验之类的事情。他们确实提到了作为流程一部分的生物安全审查。说得通。所以他们正在积极尝试将他们的AI用于科学的进步。这就是想法。通过将他们的工具交给研究人员,他们希望帮助加速在非常复杂的领域取得突破。这似乎是一个积极的倡议。现在,

在线平台。Reddit正在试图打击AI机器人。没错。他们在一些关于最近在该平台上运行的未经授权的AI实验的争议之后,宣布了更严格的用户验证计划。啊,好的。那么计划是什么?他们将如何更严格地验证用户?

他们还没有详细说明所有细节,但目标是更好地检测和阻止试图模仿人类用户的那些AI机器人。他们可能会使用第三方服务,但他们也表示希望尽可能保留用户的匿名性。这是一个艰难的平衡行为,不是吗?

在不损害隐私的情况下发现机器人。对于现在所有平台来说,这是一个巨大的挑战。随着AI在听起来像人类方面变得越来越好,防御措施也必须变得更好,只是为了保持信任并阻止操纵。一场持续的战斗。是的。好的,还有一个研究项目,WebThinker。一个用于研究的AI代理。是的,这听起来非常先进。它来自Renmin大学、BA AI和华为的AI代理框架。

它旨在使大型推理模型(LRM)在复杂研究方面更好。它是如何做到的?有什么不同?它允许AI代理自主浏览网络、导航网站、提取信息,

甚至起草报告,所有这些都是其推理过程的一部分。所以它不仅仅是检索事实,它还在积极探索和综合。没错。目标是超越标准的RAG(检索增强生成),其中AI只是获取信息并使用它。WebThinker的目标是将网络交互更深入地集成到推理本身中,以解决那些真正知识密集型的问题。听起来像是朝着能够真正独立进行研究的AI迈出的一步。这似乎是方向,是的。

更多能够进行深度探索和报告的自主代理。好的,哇。我们涵盖了很多内容。

在我们结束之前,还有一些来自5月7日的其他快速新闻值得一提。是的,只是一些快速简短的新闻。OpenAI据报道正在收购Windsurf。它曾经是Codeum,一个编码平台,价格高达30亿美元。这将是他们有史以来最大的一笔收购。30亿美元用于一个编码平台?是的。他们对开发人员的AI认真吗?还有什么?谷歌在搜索中推出了针对广告商的AI Max功能,帮助他们优化广告系列。

埃隆·马斯克的律师反驳了OpenAI的重组计划,基本上称其为虚饰。仍然存在紧张关系。是的。微软也有担忧。报告显示,微软确实正在寻求保证,其价值多少,137.5亿美元的投资在OpenAI新的公共利益公司结构下是安全的?可以理解。还有什么吗?

我们的URA,智能戒指公司,增加了新的AI功能,用于记录食物和监测血糖。而一家名为Future House的公司将名为Finch的AI代理投入了封闭测试版。它专门用于分析生物数据。生物数据分析,另一个专门的AI工具。它确实表明AI现在几乎触及了所有可以想象的领域。绝对的。仅仅一天,5月7日,

的快照确实描绘了AI创新令人难以置信的速度和多样性。你看到了机器人获得了物理感官。对,触觉。伙伴关系中的巨大战略转变和潜在的搜索默认值。是的,苹果-谷歌的动态。个人使用AI进行理财或获得更逼真头像的新方法。以及在那个法庭案件中出现的一些非常复杂的伦理问题。说实话,很难跟上。触觉机器人真的让我印象深刻。这感觉像是一个根本性的转变。

而苹果可能远离谷歌搜索的整个事情,这可能会显著地重塑局面。加上不断朝着更像人类的AI前进,无论是在能力还是外观上。我认为像WebThinker这样的自主研究代理,确实暗示了AI如何改变知识工作本身。而亚利桑那州的这个法庭案件,它迫使我们以全新的方式思考AI在社会中的作用。绝对的。所以也许最后给你听众一个想法。

考虑到我们刚才谈论的所有内容,机器人、搜索变化、科学工具、伦理困境,你认为AI可能以哪些最意想不到的方式出现在你的日常生活中,也许比你想象的要快?是的,超越显而易见的东西。好的和可能具有挑战性的令人惊讶的涟漪是什么?一些需要思考的东西。再次感谢您与我们一起深入探讨AI的世界。下次再见。