We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode A wild week in AI

A wild week in AI

2025/4/21
logo of podcast Elon Musk Podcast

Elon Musk Podcast

AI Deep Dive AI Chapters Transcript
People
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
Topics
主持人: 本周人工智能领域发生了许多令人难以置信的事情,例如谷歌训练人工智能与海豚交流,这标志着人工智能技术在跨物种交流领域的重大突破。 谷歌开发的Dolphin Gamma模型是一个紧凑型AI模型,可以在手机上直接运行,用于理解和生成海豚的叫声。该模型使用了音频标记化框架,将海豚的各种叫声转换为离散的音频标记,并利用谷歌的SoundStream编解码器进行处理。 Dolphin Gamma模型的架构具有通用性,未来可能用于理解和模拟其他动物的叫声,甚至实现与某些动物物种的实时双向交流。这将为研究人员提供前所未有的机会来理解动物的语言和行为,并可能促进人与动物之间的沟通。 与此同时,新的动画工具也展现了人工智能在创意领域的巨大潜力。UniAnimate DIT插件允许用户使用运动参考视频为任何角色图像制作动画,其结果令人惊讶地好,即使是具有复杂外观或不寻常解剖结构的角色也能以最少的伪影进行动画处理。Tencent的Instant Character工具可以将虚拟角色放置到新的场景中,并保持其属性的一致性,这对于在视觉内容创作中至关重要。 此外,Nvidia的Parkfield项目是一个用于3D对象的部件分割模型,能够将复杂的网格分解成单独标记的组件,这对于构建物理模拟、机器人技术或游戏资产具有明显的意义。 最后,在北京举行的类人机器人半程马拉松比赛反映了机器人移动技术的快速发展,类人机器人可能很快就会被部署到面向公众或体力劳动的角色中。这场比赛测试了机器人的耐力、适应性和真实世界的稳定性,这些都是机器难以掌握的特性。

Deep Dive

Chapters
This chapter announces the evolution of the podcast, broadening its focus to include all tech titans and its relaunch as Stage Zero. It also encourages listeners to support the show through Patreon.
  • Podcast is expanding its focus to cover all tech titans.
  • Relaunching as "Stage Zero".
  • Listeners encouraged to support the show on Patreon for exclusive content and early access.

Shownotes Transcript

本期节目由雪佛兰Silverado赞助播出。当您想离开柏油路,前往越野时,请选择一辆无所不能的卡车——雪佛兰Silverado Trail Boss。体验其Z71悬挂系统和2英寸原厂升高的强大越野能力。此外,可选配的Duramax 3升涡轮柴油发动机可提供令人印象深刻的扭矩和牵引能力。在其他卡车望而却步的地方,您才刚刚开始。访问Chevy.com了解更多信息。

个人电脑为我们带来了家庭计算能力,互联网将我们连接起来,移动设备让我们几乎可以在任何地方进行操作。现在,生成式人工智能让我们能够使用自己的语言和感官与技术进行交流。但是,当您身处其中时,弄清楚这一切却是一个完全不同的故事。欢迎收听《引领变革》。

这是微软Azure的一个新播客。我是您的主持人苏珊·埃特林格。在每一集中,领导者们将分享他们的学习成果,帮助您充满信心地应对所有这些变化。请加入我们。您可以在任何收听播客的地方收听和订阅。欢迎回到埃隆·马斯克播客。我很高兴与大家分享一些令人兴奋的消息。在接下来的两周内,我们将进行发展。我们将拓宽关注范围,涵盖所有正在塑造我们世界的科技巨头。随之而来的是,我们的节目将变得轰动一时。

零阶段。您仍然可以获得关于埃隆·马斯克的最新见解,以及更多内容。因此,请继续关注我们即将推出的零阶段官方重新启动。在过去的四五年里,我一直为您带来来自埃隆·马斯克世界的深入、严肃的见解。但我需要您的帮助才能让节目继续发展壮大。

如果您喜欢听到的内容,请考虑在Patreon上支持零阶段,网址为patreon.com/stagezeronews。

加入我们的Patreon社区,您将获得独家内容、部分剧集的抢先体验以及塑造未来主题的机会。每个人都有发言权。您的支持将直接用于使本节目变得更好。它也帮助我继续为您带来您每天都喜欢的内容。如果您从零阶段新闻中获得价值,那么成为赞助者是确保这段旅程继续下去的最佳方式。

让我们一起让接下来的五年更加辉煌。节目说明中有一个专门为您准备的链接。为什么谷歌要训练人工智能与海豚交谈?这不是您每天都能听到的事情。这正是总结了为什么

这可能是今年迄今为止人工智能领域最不可预测、最混乱、最引人入胜的一周的原因。研究人员不仅现在正在尝试使用轻量级神经网络解码动物的交流,而且我们还看到了类人机器人跑了一场真正的半程马拉松,人工智能工具可以将宠物动画成舞者或一键将漫画面板栩栩如生,以及OpenAI推出了迄今为止最智能的模型。每一个故事

本身就是一个问题。为什么现在?它是如何工作的?这对未来互动、创造力和智能本身意味着什么?首先,谷歌本周凭借一项名为Dolphin Gamma的成果登上了头条新闻,这是一个经过训练的紧凑型人工智能模型,可以理解甚至生成海豚的叫声。现在,这不同寻常的不仅仅是应用。它直接在您的手机上运行。

研究人员使用谷歌Pixel设备,使用基于音频标记化的框架处理海豚实时聊天。他们记录了海豚发出的每一种声音,包括咔哒声、哇哇声、口哨声,并使用谷歌的SoundStream编解码器将其转换为离散的音频标记。

然后,使用这个标记化数据集来训练谷歌Gemma模型的一个较小变体,该模型的参数约为4亿个。它足够小,可以在移动硬件上高效运行,无需外部计算。

除了理解之外,该模型还可以合成新的类似海豚的声音,这对于旨在将物种间交流翻译成人类最终可以理解的东西的研究人员来说是一个潜在的突破。

现在,这不仅仅局限于海豚。该架构足够通用,可以重新训练以理解和模拟其他动物的叫声。理论上,它最终可以支持与某些动物物种进行实时的双向交流。你能想象和你的宠物说话吗?这就提出了一个问题,

进入奇怪的领域。如果人工智能可以模仿海豚叫声中类似语言的结构,那么我们是否即将开发出机器驱动的跨物种翻译器?现在,当人工智能与海洋生物交流时,

动画工具正在与互联网上最受欢迎的内容创作者交流。UniAnimate DIT是一个为开源模型构建的新插件。Animate Diff 1.2允许用户使用运动参考视频来动画任何角色图像。上传一张美观的图像,任何人的照片、卡通人物,甚至是宠物,并将其与某人跳舞或四处走动的短片结合起来。

该工具从视频中提取姿势数据,然后将其应用于静态图像,生成具有平滑过渡的完整动画剪辑。引人注目的是,该模型可以猜测看不见的角度。

例如角色的背面,并令人信服地动画出飘动的织物或手部动作。所有这些都在本地运行,至少需要14 GB的VRAM,这意味着创作者可以使用该工具而无需依赖云服务。我用过它。结果令人惊讶地好。即使是具有复杂外观或不寻常解剖结构的角色,例如虚构的动漫设计或动物,也可以通过最少的关节动画来动画。

伪影。由于所有内容都是开源的,因此艺术家和动画师现在可以使用一种新型的木偶戏。这可以通过下载GitHub存储库来访问。本周,腾讯也出现了一个配套工具。它被称为Instant Character。它专注于基于参考的生成中的准确性。因此,您有一张虚构角色的图像。

Instant Character可以将相同角色(精确到面部结构、服装细节和配饰)放置到新的场景中。您可以以完整的动漫风格渲染他们在工作室弹钢琴或在暴风雪中行走。该模型基于Flux,这是目前可用的保真度最高的开源扩散模型之一。它使用LoRa适配器将输出风格化为从吉卜力工作室到新海诚的标志性风格的一切。

现在,与大多数现有的角色转换模型不同,该模型在不同的场景中保持属性一致,并且在2D、3D和照片写实风格中都能做到这一点。这对你来说重要的不仅仅是角色扮演者或粉丝艺术家,在一个日益被视觉内容主导的世界中

组织和虚拟角色,在生成的媒体中保持身份一致的能力变得至关重要,尤其是在化身、虚拟YouTuber和人工智能生成的网红变得越来越复杂并更多地融入媒体生态系统的情况下。现在,有一种名为Parkfield的新事物。它是Nvidia的一个项目。它专注于一种非常不同的分割类型。这次是三维的。

这是一个用于3D对象的部件分割模型,能够将复杂的网格分解成单独标记的组件。现在考虑一下机器人的3D模型或带有Parkfield的汽车。每个部件、手臂、腿、轮子、镜子都被隔离到其自己的标记区域中,从而可以独立地将纹理交换、物理模拟或动画应用于每个部分。这对任何构建物理模拟的人来说都具有明显的意义,

机器人技术或游戏资产。与以前的分割模型相比,它不仅性能更好,而且速度更快,由于更有效的标记化和推理架构,可以完成任务的时间只是之前的一小部分。

你还在引用30年前的电影吗?你在过去90天里说过“酷豆”吗?你认为Discover卡不被广泛接受吗?如果这听起来像你,那么你已经落伍了。Discover卡在全国99%接受信用卡的地方都被接受。每次您使用您的卡进行购买时,您都会自动获得现金返还。欢迎来到现在。使用Discover卡,您将获得回报。访问discover.com/creditcard了解更多信息。基于2024年2月尼尔森报告。

还有一件事,一个略带超现实感的现实世界场景,一场类人机器人半程马拉松刚刚在北京举行。来自中国各地的20多家公司参加了比赛,他们带来了能够行走、慢跑和奔跑的双足机器人,这些机器人在欢呼的观众面前在跑道上跑来跑去。一些参赛作品笨拙不堪,几乎无法保持平衡,而另一些参赛作品,例如北京优必选科技有限公司的Unitree G1

的“强健”超能机器人则实现了更流畅的步态,甚至完成了更长的跑步。现在,这段视频显示一些机器人摔倒或在跑步中途停止,但其他机器人则完成了整个比赛。特别是“强健”超能机器人因其速度和稳定性而备受关注,这表明双足运动设计取得了真正的进展。尽管这项赛事听起来可能像个新奇事物,

但这反映了一个正在变化的现实。机器人移动性发展迅速,类人机器人可能很快就会被部署到面向公众或体力劳动的工作岗位中。举办马拉松可能只是一个宣传噱头,但它也是对这些机器人的一个基准测试。测试耐力、适应性和现实世界的稳定性。这些特性对于机器来说是出了名的难以掌握。

在卡佩拉大学,您可以按照自己的节奏学习,使用我们的FlexPath学习模式。

一次修读一到两门课程,并在12周的计费期内尽可能多地完成课程。使用FlexPath,您甚至可以在22个月内以20,000美元的价格完成您开始的学士学位。卡佩拉大学让不同的未来比您想象的更近。访问capella.edu了解更多信息。最快25%的学生。费用因进度、转学分和其他因素而异。适用费用。

升起舵,升起帆。船长,一艘身份不明的船只正在靠近。收到。等等,那是一个企业销售解决方案吗?招募销售专业人员,而不是专业水手。使用LinkedIn广告,您可以按行业、职位等目标定位合适的人员。我们甚至会在您的下一次活动中为您提供100美元的信用额度。立即访问linkedin.com/results开始。适用条款和条件。

获得50美元的工资。

选择六个积分。更高的赔付,更大的胜利,只有DraftKings的Pick Six才能做到。王冠属于你。有赌博问题?请致电1-800-GAMBLER。提供赌博问题的帮助。请致电888-789-7777或访问ccpg.org(康涅狄格州)。必须是

♪♪♪

我是莱恩·雷诺兹,来自Mint Mobile。我不知道您是否知道,任何人都可以获得与我一直在享受的相同的15美元/月的优质无线计划。这不仅仅是为名人准备的。所以像我一样,让您的助理的助理今天就为您切换到Mint Mobile吧。

据说这在mintmobile.com/switch上非常容易操作。需要预付45美元的三个月计划费用(相当于每月15美元)。优惠价仅限前三个月,然后提供全价计划选项。税费另计。请访问mintmobile.com查看完整条款。

不要错过在Lowe's抢购优惠的机会。现在,购买精选的60伏Toro电动割草机即可免费获得一块60伏Toro电池。此外,购买三株19.3盎司的邦妮蔬菜和香草植物只需10美元。是时候让您的院子焕然一新了。Lowe's,我们提供帮助,您节省开支。有效期至4月23日。选择因地点而异。售完即止,折扣在购买时扣除。实际植物大小和选择因地点而异。不包括阿拉斯加州和夏威夷州。

嘿,非常感谢您今天的收听。我真的很感谢您的支持。如果您能花一秒钟点击订阅或关注按钮,无论您现在正在哪个播客平台上收听,我都会非常感激。这将极大地帮助节目,您也不会错过任何一集。每一集大约10分钟或更短,让您快速了解最新信息。如果您想更多地支持该节目,请访问patreon.com/stagezero。

请照顾好自己和彼此,明天见。