欢迎来到AI Unraveled的新深度探讨,这是由Etienne Newman创建的播客,他是一位资深工程师,也是一位热情的加拿大足球爸爸。大家好。如果您喜欢这些节目并觉得它们很有价值,请花一点时间在Apple Podcasts上点赞和订阅。这真的对我们很有帮助。真的。如果您正在考虑升级您的生产力工具,或者正在探索一些AI功能,
请查看节目说明。我们有一个推荐链接和Google Workspace的折扣码。是的,您可以获得Gemini PRO。
Notebook Om、Teams,以及许多有用的东西。没错。还要快速提及一下,对于任何正在攻克那些艰难的技术认证的人来说,Etienne的AI驱动的Jamgatech应用程序就是为此而设计的。它涵盖了50多种PBQ和模拟密集型证书。绝对值得一看。好的,欢迎回到深度探讨。我们的想法,一如既往,是提取您正在关注的来源的关键信息,并希望快速为您提供清晰的画面。是的。
今天,我们将深入探讨2025年5月7日人工智能新闻和发展。范围相当广泛。我们有机器人学习,嗯,感受事物,主要人工智能伙伴关系的潜在转变,以及各种事情。应该有一些有趣的联系,也许还有一些惊喜。绝对的。
绝对的。好的,我们从哪里开始?也许是从亚马逊的仓库开始。听起来不错。他们有一个新的机器人,Vulcan。就是那个。Vulcan真正有趣的部分是,嗯,它有触觉。一个可以感知的机器人。哦。好的,这听起来像是从仅仅移动东西到一个相当大的飞跃。这是如何工作的?它使用力反馈传感器。对。它背后的AI已经接受了大量关于物理交互的数据训练,因此它可以处理更多不同类型的物品,精确地处理它们,并且至关重要的是,不会损坏它们。所以它不仅仅是抓取,它是在感知所需的压力。没错。它知道要使用多少力。虽然这对仓库来说意义重大,但想想其他领域,也许是老年护理,甚至未来的手术,在这种情况下,这种精细的触觉至关重要。
这是一个很好的观点。这也引发了关于需要精细动作技能的工作的问题。但就目前而言,在仓库里,它与人们一起工作,对吧?正是如此。其理念是Vulcan承担对人体工学来说很困难的任务,你
你知道,不断地向上伸手或向下弯腰。所以这是关于效率和安全的问题。这是目标。提高仓储中心的安全性,提高效率。它现在实际运行了吗?是的。它正在运行。目前在华盛顿州和德国的一些特定亚马逊设施中。好的。
你提到它处理很多不同的物品。是的。据称,它被设计用来拣选和放置他们库存的所有产品类型的四分之三左右。你知道,以前几乎完全由人类完成的任务。四分之三。哇。好的。
这是一项非常重要的工作。绝对是。退一步说,为这样的自动化添加可靠的触觉是一个重大的进步。它只是拓宽了机器人可以安全有效地完成工作的范围,从简单的重复转向更细致的任务。好的,机器人变得更灵巧了。让我们稍微改变一下方向,也许转向商业方面。大型AI参与者之间的关系,OpenAI。
和微软。对。有一份来自《信息》的报告表明,OpenAI可能正计划大幅调整其与微软的收入分成协议。调整方式?微软在OpenAI上投入了很多,不是吗?数百亿美元。是的。是的。
目前的协议据报道给予微软OpenAI前20%的收入,一直持续到2030年。20%是相当大的。是的。但是根据这些财务文件,《信息》看到OpenAI希望到2030年将合作伙伴的这一比例降低到10%。目前的协议不仅仅涉及收入分成。哦,是的。它涵盖了利润分成、知识产权。OpenAI的API专门在微软Azure上运行,这是一个深度合作关系。那么为什么会有潜在的变化呢?OpenAI的
OpenAI现在感觉更独立了吗?这似乎很可能。你知道,他们的规模正在以惊人的速度增长。这可能反映出,随着他们的技术被广泛应用,他们对更多财务自主权的追求。说得通。但微软对此有何感受?
对那项巨额投资的回报率较低?好吧,这就是个大问题,不是吗?这肯定会影响微软投资的长期财务状况。这可能预示着权力动态的转变。OpenAI不是也在重组自身吗?他们正在提议一个新的结构,作为一个公共利益公司,是的。但报告显示,微软仍然需要批准这一点,可能是为了确保他们的财务利益在转型过程中得到保护。好的,有很多变化的部分。这确实表明了这些大型科技公司之间的伙伴关系是如何不断发展的。
说到这里,苹果似乎也在重新考虑事情,尤其是在搜索方面。是的,这是另一个有趣的问题。苹果显然正在探索为Safari寻找AI驱动的搜索合作伙伴。为什么现在?是什么触发了这个?好吧,苹果的埃迪·库克最近在法庭上作证,他透露,有史以来第一次,上个月Safari上的谷歌搜索使用量下降了。哇。
他在法庭上这么说。他有没有说明原因?是的。他直接将其归因于人们转向使用AI工具而不是传统的搜索。这是一个巨大的承认。那么苹果对此做了什么?他们正在积极寻找合作伙伴。提到了OpenAI、Perplexity、Anthropic等名字。其想法是在Safari内部提供替代搜索选项。那么谷歌真的会失去它在iPhone上的默认位置吗?那笔数十亿美元的交易
突然看起来像是一个真正的可能性,不是吗?你看到了使用量的下降,加上正在进行的反垄断诉讼,无论如何都在威胁着谷歌的交易。对。反垄断的事情。没错。所以用户习惯的变化加上监管压力。看起来苹果正在认真考虑对Safari进行重大战略转变,超越谷歌。每个人都在争夺地位。
OpenAI不仅仅在与合作伙伴打交道。他们现在也着眼于全球。这个OpenAI for Countries的事情。没错。一项新的倡议,他们计划与世界各国的政府合作。目标是帮助他们建立主权AI基础设施。主权AI基础设施。好的,这实际上意味着什么?比如数据中心?是的。数据中心,是的。但是?
可能更多。这似乎与美国政府协调一致,也许就像他们Stargate项目概念的国际版本。OpenAI正在提供技术帮助,定制的AI模型,针对当地语言、当地需求、医疗保健、教育。因此,一个国家可以获得自己定制的AI,在本地运行。这就是宣传。
至关重要的是,这意味着对数据、算法,甚至可能对在其境内管理AI的伦理规则进行更多国家控制。这既雄心勃勃又昂贵。谁来支付?计划是共同融资。OpenAI和伙伴国都将投资。
OpenAI在这里的目的是什么?更大的目标是什么?他们将其定义为促进民主AI,确保技术发展符合民主价值观、人权等。所以也有一层哲学层面。绝对的。从战略上讲,你可以看到OpenAI将自己定位为国家AI发展的全球合作伙伴。它推广他们的技术、他们的做事方式、他们的民主AI轨道,正如他们可能所说的那样。但这也会造成依赖性,对吧?
当然。它培养了一个围绕OpenAI模型和原则建立的全球生态系统。这是一个非常重要的战略举措。绝对值得关注。好的,让我们回到技术本身。谷歌一直在更新Gemini,对吧?有一个新版本。是的,他们上周(实际上是5月6日)发布了Gemini 2.5 Pro的早期预览版,即I/O版本。
报告显示,它显示出一些非常显著的改进。改进在哪里,具体来说?尤其是在编码和Web开发方面,似乎是这样。好的,我们怎么知道?有基准测试吗?是的。几乎在发布后立即,它显然跃居排行榜榜首,
WebDev Arena(人类在其中对AI生成的Web应用程序进行评分)和通用聊天机器人领域。哇,两个都是第一名。它击败了其他顶级模型吗?据报道,是的。它超越了Claude 3.7 Sonnet,甚至OpenAI的O3模型,后者是之前的领导者。所以是真正的可衡量的收益,特别是对于开发人员来说。看起来是这样。增强了前端UI功能的性能,转换代码,编辑代码,构建更复杂的自主工作流程。自主工作流程。
就像AI执行多步骤任务一样。没错。它还具有新的视频理解能力。他们提到了将视频内容转换为交互式学习应用程序之类的事情。这很酷。总的来说,它在LM Arena排行榜上排名第一,击败了OpenAI的最新版本。这就是报告中指出的内容。是的。在所有类别中。它
确实表明谷歌正在努力改进Gemini并取得最先进的结果,至少根据这些人类偏好基准测试来看是这样。竞争非常激烈。一点没错。速度令人难以置信。好的,从模型的大脑到它的,嗯,脸。公平的。AI头像也变得越来越逼真了。HeyGen。绝对的。HeyGen更新了他们的Avatar技术,Avatar 3.0和Avatar 4V是新的版本。而重点是让它们在情感表达上更丰富。情感AI头像。
听起来有点科幻。他们是怎么做到的?该系统查看文本脚本或收听音频,然后生成面部表情、手势、语音语调,甚至肢体语言以匹配。
其理念是使使用这些头像的视频演示感觉更自然和引人入胜。所以它是在分析单词的含义或感觉。似乎是这样。他们有一个新的音频到表情引擎,显然是受扩散模型的启发。它分析语音以创建非常逼真的面部动作,甚至是微表情和手势。哇。它需要什么来创建一个?他们说只需要一张参考图像和一个语音脚本。
而且它显然适用于不同的主题,甚至是宠物或动漫人物以及不同的角度。Avatar 4s现在还支持肖像,
半身和全身。更加动态。他们为哪种类型的视频宣传这个?他们重点介绍了诸如网红风格的视频、唱歌的头像、游戏角色,甚至像这个播客一样的视频,但更具表现力。有趣。更广泛的含义是什么?更逼真的数字人类。差不多。这是朝着使这些互动感觉不那么机械化、更自然的方向迈出的一步。这对于营销、客户服务、教育和娱乐来说可能意义重大。
任何你想要那种人际联系的地方。从花哨的头像到实用的工具,用于个人理财的AI使用Zapier。是的,有一份指南介绍了如何使用Zapier代理。这是他们的AI自动化工具,用于构建你自己的个人理财助手。关键是你不需要编码。好的,所以我可以设置一个AI系统。
自动跟踪我的支出。这是如何工作的?基本上,是的。你连接你已经使用的应用程序,也许是Google Sheets,你的会计软件,等等。然后你用简单的英语告诉Zapier代理你想让它做什么。比如跟踪我的支出或总结我的支出。没错。或者检查这个发票是否已支付,或者提醒我支付这个账单。诸如此类的事情。
设置起来有多复杂?步骤是什么?该指南听起来非常简单。创建一个新的代理,告诉它做什么。例如,当新的发票出现在这个Google Drive文件夹中时,然后添加它需要的工具,也许是Google Drive来获取文件,ChatGPT来读取发票详细信息,Google Sheets来记录信息。然后你测试它,确保它有效,然后打开它。这实际上对很多人来说听起来都是可行的。最大的收获是什么?
这实际上是关于赋权,对吧?让非程序员能够为自己的需求构建自定义AI工具。将应用程序连接在一起,自动化烦人的任务,所有这些都只需与AI对话即可。它使自动化更容易实现。使强大的工具更容易使用。这似乎是一个主题。说到易用性,Lightrix开源了他们的AI视频模型。
听起来对开发人员来说是一件大事。这确实非常重要。Lightrix,他们制作Facetune和Videoleap等应用程序,发布了他们的LTX视频模型系列。其中包括LTX V13b,这是一个拥有130亿个参数的模型。130亿。这相当大,不是吗?是的,很大。而且他们已经将其置于开源许可下。对于收入低于1000万美元的小型实体来说,它是免费的。你可以在Hugging Face上找到它。
GitHub。它能做什么?只是文本转视频吗?文本转视频,还有图像转视频。他们重点介绍了他们称之为多尺度渲染的新技术。据说它速度快且质量高。多尺度渲染。这是如何工作的?他们描述的方式是,它有点像分层构建视频。
首先是粗略的草图,然后添加更精细的细节。他们声称这有助于平滑度和一致性。而最大的新闻是它可以在普通计算机上运行。这是一个关键点,是的。他们说它可以在消费级GPU上运行。这大大降低了进入门槛。通常,这些大型模型需要强大的、昂贵的硬件。对。还有其他很酷的功能吗?他们提到了精确的相机控制、关键帧编辑、用于排序多个镜头的工具,
听起来他们目标是相当复杂的视频创作。而且他们合作提供了训练数据。是的,与Deady Images和Shutterstock合作,这对于输出的质量和合法性非常重要。那么为什么开源呢?影响是什么?它应该会真正加速AI视频的创新。使像这样的先进工具更容易获得,可以让更多的人进行实验、构建新事物、竞争。它真的可以激起生成式视频领域。更多工具,更多创作者,更多创新。
说得通。好的,让我们转向一些非常重要的应用。使用AI无人机进行医疗物资交付。无人机生命线。是的,这是非常有影响力的事情。AI正在使无人机变得更智能、更强大,可以交付重要的医疗用品。AI是如何帮助的?
它使无人机能够做什么?好吧,首先它允许自主飞行,但也优化路线,考虑天气、地形。它帮助它们动态地避开障碍物,它也协助整个物流管理方面。而且这些东西携带疫苗、血液。没错。疫苗、血液、药品、疫苗。
重要的物品运送到难以到达的地方,偏远地区、灾区、基础设施薄弱的地方。减少交付时间一定会有很大的不同。巨大的不同。在非洲和印度的部分地区已经运行的项目显示出真正的救生潜力。这是通过克服这些后勤障碍来大幅改善医疗保健的可及性。这太棒了。真正的AI造福人类。现在,对于一些完全不同的事情,也许有点争议,AI。
美国法庭上的AI。这绝对是第一次出现这种情况。是的。在亚利桑那州,在一次致命路怒案的量刑听证会上,受害者克里斯托弗·佩尔基的家人使用AI制作了一段他发表受害者影响陈述的视频。等等,他们制作了一段已故受害者说话的视频?
如何?他们使用了AI工具,结合了他现有的照片和视频以及他们从他的角度撰写的脚本。显然,信息是原谅被判刑的人。哇。法院是如何处理这个问题的?法官怎么说?
法官承认了它的情感分量。但正如你所想象的那样,它引发了很多讨论。我敢打赌伦理问题、法律问题。是的。真实性操纵。没错。这是AI在法律环境中的一种非常新颖的应用。它引发了关于这种技术在司法系统中所扮演角色的极其复杂的问题,我们正在
才刚刚开始努力应对。绝对是未知领域。好的,让我们回到研究。Anthropic有一个针对科学家的新项目。是的,他们启动了AI for Science。目标非常
非常明确。利用AI来加速科学发现,尤其是在生物学和生命科学领域。他们是如何做到的?他们是否免费提供AI访问权限?基本上,是的。他们为选定的研究人员提供免费的API积分报告,据说高达2万美元,用于使用Anthropic模型,如CLAWD。这将支持哪种类型的研究?
诸如分析海量数据集、为实验生成新的假设、帮助设计这些实验之类的事情。他们确实提到了作为流程一部分的生物安全审查。说得通。所以他们正在积极尝试将他们的AI用于科学的进步。这就是想法。通过将他们的工具交给研究人员,他们希望帮助加速在非常复杂的领域取得突破。这似乎是一个积极的倡议。现在,
在线平台。Reddit正在试图打击AI机器人。没错。他们在一些关于最近在该平台上运行的未经授权的AI实验的争议之后,宣布了更严格的用户验证计划。啊,好的。那么计划是什么?他们将如何更严格地验证用户?
他们还没有详细说明所有细节,但目标是更好地检测和阻止试图模仿人类用户的那些AI机器人。他们可能会使用第三方服务,但他们也表示希望尽可能保留用户的匿名性。这是一个艰难的平衡行为,不是吗?
在不损害隐私的情况下发现机器人。对于现在所有平台来说,这是一个巨大的挑战。随着AI在听起来像人类方面变得越来越好,防御措施也必须变得更好,只是为了保持信任并阻止操纵。一场持续的战斗。是的。好的,还有一个研究项目,WebThinker。一个用于研究的AI代理。是的,这听起来非常先进。它来自Renmin大学、BA AI和华为的AI代理框架。
它旨在使大型推理模型(LRM)在复杂研究方面更好。它是如何做到的?有什么不同?它允许AI代理自主浏览网络、导航网站、提取信息,
甚至起草报告,所有这些都是其推理过程的一部分。所以它不仅仅是检索事实,它还在积极探索和综合。没错。目标是超越标准的RAG(检索增强生成),其中AI只是获取信息并使用它。WebThinker的目标是将网络交互更深入地集成到推理本身中,以解决那些真正知识密集型的问题。听起来像是朝着能够真正独立进行研究的AI迈出的一步。这似乎是方向,是的。
更多能够进行深度探索和报告的自主代理。好的,哇。我们涵盖了很多内容。
在我们结束之前,还有一些来自5月7日的其他快速新闻值得一提。是的,只是一些快速简短的新闻。OpenAI据报道正在收购Windsurf。它曾经是Codeum,一个编码平台,价格高达30亿美元。这将是他们有史以来最大的一笔收购。30亿美元用于一个编码平台?是的。他们对开发人员的AI认真吗?还有什么?谷歌在搜索中推出了针对广告商的AI Max功能,帮助他们优化广告系列。
埃隆·马斯克的律师反驳了OpenAI的重组计划,基本上称其为虚饰。仍然存在紧张关系。是的。微软也有担忧。报告显示,微软确实正在寻求保证,其价值多少,137.5亿美元的投资在OpenAI新的公共利益公司结构下是安全的?可以理解。还有什么吗?
我们的URA,智能戒指公司,增加了新的AI功能,用于记录食物和监测血糖。而一家名为Future House的公司将名为Finch的AI代理投入了封闭测试版。它专门用于分析生物数据。生物数据分析,另一个专门的AI工具。它确实表明AI现在几乎触及了所有可以想象的领域。绝对的。仅仅一天,5月7日,
的快照确实描绘了AI创新令人难以置信的速度和多样性。你看到了机器人获得了物理感官。对,触觉。伙伴关系中的巨大战略转变和潜在的搜索默认值。是的,苹果-谷歌的动态。个人使用AI进行理财或获得更逼真头像的新方法。以及在那个法庭案件中出现的一些非常复杂的伦理问题。说实话,很难跟上。触觉机器人真的让我印象深刻。这感觉像是一个根本性的转变。
而苹果可能远离谷歌搜索的整个事情,这可能会显著地重塑局面。加上不断朝着更像人类的AI前进,无论是在能力还是外观上。我认为像WebThinker这样的自主研究代理,确实暗示了AI如何改变知识工作本身。而亚利桑那州的这个法庭案件,它迫使我们以全新的方式思考AI在社会中的作用。绝对的。所以也许最后给你听众一个想法。
考虑到我们刚才谈论的所有内容,机器人、搜索变化、科学工具、伦理困境,你认为AI可能以哪些最意想不到的方式出现在你的日常生活中,也许比你想象的要快?是的,超越显而易见的东西。好的和可能具有挑战性的令人惊讶的涟漪是什么?一些需要思考的东西。再次感谢您与我们一起深入探讨AI的世界。下次再见。