您好,欢迎收听 NVIDIA AI Podcast。我是主持人 Noah Kravitz。数字人和 AI 代理有望成为今年的大新闻。事实上,它们已经在掀起波澜。在
在拉斯维加斯举行的 2025 年 CES 上,罗技 G 的 Streamlabs 推出了其智能流媒体助理,该助理由 Inworld AI 和 NVIDIA 的技术提供支持。智能流媒体助理是一款 AI 代理,旨在在停机期间提供实时评论,并在 Boss 战或追逐等高风险时刻增强兴奋感。
此次合作汇集了 Streamlabs 在直播工具方面的专业知识、NVIDIA ACE 数字人技术(包括可以理解屏幕上发生事件的 AI 视觉模型)以及 Inworld 的先进生成式 AI 功能(用于感知、认知和自适应输出)。但什么是数字人?它们将用于何处?它们将在企业以及游戏和娱乐领域产生怎样的影响?在数字人、自主 AI 和 AI 时代,设计师该如何进行设计?
InWorld AI 产品体验总监 Chris Covert 将深入探讨这些问题以及更多内容,我们将讨论一些我认为真正有望
在今年及未来几年产生重大影响并塑造我们所有人将在广义上称为“AI 时代”的数字体验新领域的科技。但无论如何,Chris 来了。所以 Chris,非常感谢你加入 AI Podcast,欢迎。感谢你今天邀请我。很高兴来到这里,不仅作为 NVIDIA 的长期合作伙伴,
也是作为你今年在 CES 上发布的 AI 最新公告的忠实粉丝。这真的是一个谈论这个领域 AI 的绝佳时机。- 的确如此。你去了展会,去了拉斯维加斯?- 我本人没去。我会参加 Dice 和 GDC,但我们的团队去了。我们一起参与了这个项目。
好的,让我们开始吧。对于可能不了解的听众,请告诉我们一些关于 nWorld、nWorld AI 的信息。稍后我们可以更深入地讨论助理,如果可以的话,这样你就可以为我们所有人奠定谈话的基础,关于我们将要讨论的内容。是的,你知道的,我非常有偏见。
我拥有世界上最好的工作。在 Inworld,我们为电子游戏制作领先的 AI 引擎。我可以与业内最具创造力的人才、游戏和娱乐领域最具创造力的人才合作,来回答这个问题:我们如何才能让更多的人更容易地获得乐趣,从而创造出我们最喜欢的体验?
我不会挑战你。听起来像是一份很棒的工作。是的,是的。我不是在这里信口开河。在接下来的过程中,我一定会强调乐趣、易用性和人们,以及为什么我认为这些在这里最重要。但 InWorld 的使命是成为这个行业的 AI 引擎,对吧?技术进步越多,创建 AI 体验的门槛就越低。但是我们发现
仍然存在挑战,无论你是一个拥有大量员工的工作室,还是一个从草根开始构建这些体验的 AI 原生公司,在 AI 系统的原型设计和部署之间都存在巨大的差距。然后做到这一点并为用户找到体验中的乐趣仍然极具挑战性。因此,我们不仅提供平台,还提供服务来帮助你以可部署的方式创造乐趣。
所以简单地介绍一下你们今年在 CES 上讨论的内容,然后像我说的那样,我们会在助理上做一个标记,然后回来。是的,太棒了。所以博客文章已经发布,精彩的视频也已经发布,有很多关于发生的事情的演示,但简而言之,为了宣传这里的合作努力,InWorld、NVIDIA 和 Streamlabs 聚集在一起参加 CES,我们对这款产品进行了测试。
你知道的,流媒体伴侣不仅可以作为流媒体的联合主持人,还可以通过其他方式支持创作者,例如在他们的流媒体上帮助他们进行制作。我们在会议上展示了这个演示。这始终存在风险,因为你是在带宽较低的广阔空间中进行播放。但我们在《堡垒之夜》上进行了播放,在这种情况下,演示者及其自主联合主持人会在游戏中聊天,因为糟糕的回合而互相调侃,对聊天中发生的趋势做出反应,在成功击杀时一起欢呼。
但有趣的是,当聊天或流媒体想要重播时,流媒体只需询问代理,代理就会剪辑,设置重播的屏幕,并保持流媒体的流畅性。这是一个用例,再次尝试对齐,例如,自主系统实际上在企业和娱乐行业中扮演什么角色?我们发现它们是高度专业化的。
在这个用例中,我们拥有完美的,你知道的,一个流媒体必须在他们的流媒体过程中扮演所有这些不同的角色。自主系统如何帮助他们,以便他们能够专注于制作最好的内容,而管理内容的所有其他事情都可以由他们来完成?所以过去,这就是为什么我们必须回到这里的原因。
我做了很多 YouTube 视频,我们尝试了一些直播。这是在 2000 年代初期到中期。我还记得设置开源插件以尝试在直播中获取图形。然后我还有一个辅助摄像头,你知道的,像一个带有摄像头的手机,带有 USB 线等等。
但这听起来太棒了。我很高兴谈论这个,然后回到它或从技术开始,然后继续前进。Agentech AI、联合主持人、数字人。让我们谈谈这些事情。你想从数字人开始吗?因为我们已经讨论了 Agentech AI,我们将会讨论它,它有不同的,你知道的,代理是什么或不是什么,我认为仍然有点可塑性和特定于上下文。
但是当我们谈论数字人时,当 nWorld 谈论数字人时,我们在谈论什么?你知道的,这是一个很好的问题,它提出了一个重要的区别。当大多数人说数字人时,他们想到的是聊天机器人,即基于文本的工具,它们使用大部分预编程的脚本来帮助完成特定任务或指导用户完成一系列问题或指令。但在 nWorld,我们专注于远远超出简单聊天的 AI 代理。这些代理可以自主规划、采取行动并主动参与其环境。
与典型的聊天机器人不同,聊天机器人等待用户提出某种问题或回应,然后 AI 代理提供预设的回应,我们 Inworld 的代理旨在解释多种类型的输入,无论是语音、文本还是视觉或传感器数据。
然后动态地思考并在实时做出回应。他们不仅仅回答问题。他们可以启动任务。他们可以适应不同的环境,并且可以进行复杂的交互,这些交互在你的操作环境中是有意义的。因此,如果你看看今天数字人主要用于何处,再说一次,我非常有偏见,它通常是在高容量聊天机器人或个人数字助理领域。
但是如果你考虑它们可以在哪里产生最大的影响,那就是当它们作为真正自主的代理发挥作用时,规划和行动并主动以传统聊天机器人无法做到方式帮助人们。这不是问答。这是回答我甚至不知道自己还有的问题。这就是我们在 InWorld 的核心关注点,构建不仅外观像人,而且可以像人一样思考、反应和解决问题的 AI 代理,使用多种模式独立地与其世界互动。
在我们这里,是一个数字世界。在使用自主 AI 进行构建时,你是否觉得即使在短期内也对即将发生的事情有坚定的愿景?或者说,从尝试不同类型的基础设施到关于如何构建这些事物的设计和更高级别的思考,这仍然是非常早期的阶段?
这是一个很好的问题。现实情况是,我们正在转向自主 AI 框架,正如我之前提到的那样。转向该框架不再是一种选择。它正在成为我们和我们合作伙伴的必需品。当你需要任何形式的自主性或实时或运行时适应性、延迟优化、任何形式的自定义决策时,你需要一个强大的框架来让你控制该堆栈。没有一个平台能够满足我们行业的需要
作为独立平台。因此,构建一个灵活的框架,能够适应我们行业的需求和不断增长的需求、变化的需求以及极其多样化的需求,这非常重要。我们越来越看到的是,企业希望端到端地拥有该架构。我的意思是,他们需要灵活性来
决定使用哪些模型、在哪里使用它们、如何将数据馈送到他们的系统、如何管理合规性和风险,所有这些因素都需要真正的自定义逻辑和自定义实现。因此,采用这种自主 AI 框架实际上将权力掌握在他们手中。这不仅仅是面向未来,更是关于
让他们完全控制 AI 在其组织内的任何时间如何发展,对吧?该行业将快速发展。我们希望确保我们的合作伙伴能够在获得灵感时同样快速地行动。但对我来说,你知道的,我最喜欢的关键区别在于,Inworld 的未来,为什么是框架模型,为什么所有这些变化,是因为这样的框架不仅保证了技术灵活性。这很好。这会让很多人高兴。但它也打开了创意设计空间,对吧?通过与那些正在合作的人
想象你能想象到的最离奇美丽、最离奇奇妙的体验,并为他们提供开放的工具来真正让他们设计自己的 AI 架构。我们真的,你知道的,正在帮助突破界限,
以及我们如何提供创新的体验,对吧?我们之前开过玩笑,但如果我们说对话式 AI,你知道的,这种聊天机器人的性质现在感觉非常入门级,感觉是基线,那么我们使用这种自主框架所做的事情就是为未来构建蓝图,以便我们的合作伙伴和客户可以帮助想象、构建和部署即使在六个月前也感觉不可能实现的 AI 体验,对吧?将其提升到一个全新的水平。
如果我们展望两年以上,我对这将走向何方只有 10% 的信心。是的,我很欣赏你的坦率。是的,就是这样,你知道的,在我的职业生涯中,我已经做过几次了,我会以顾问的身份与某人合作,我们正在展望未来三到五年。在我们完成分析时,我们两年后的事情现在已经开源了。
你会说,太棒了。所以回到绘图板,因为它只是这个行业发展如此之快,以至于可能发生的事情实际上很难确定。我们希望在这个对话中,如何围绕 AI 和这些系统进行设计,这是一个挑战?因为我认为我们已经学习了一些很棒的经验教训,希望听众也能从中受益。
我确实看到了,你知道的,当谈到试图避免听起来过于明显时,当我们谈论代理时,代理将如何发展,代理将如何发展,其背后的技术甚至在不久的将来也将如何发展,这都归结于代理。再说一次,这是代理。听起来很明显。但我真正想说的是认知引擎的复杂性。我将尝试现在用一个比喻来解释这一点,我会尽量说得快一点,因为我可以谈论这个。不,慢慢来。无论如何,我们会花时间在比喻上。是的。
我们有这个,你知道的,首先,再次是对话式 AI 阶段。我将使用游戏比喻,对吧?对话式 AI 阶段赋予化身、赋予代理(我今天将它们互换使用)除了说话之外几乎没有任何其他行动的代理权,对吧?如果我要求它做某事,它可能会对我的输入做出回应,但它不会物理地改变任何事物的状态,除了它将告诉我的对话之外。所以想想
就城市建设模拟游戏而言。你知道的,在这个阶段,对话式 AI,我可以问它关于建筑的问题,它可以告诉我一些关于建筑的事实。我可以问它,
嘿,我该如何限制拥堵或如何最大限度地提高这个小型商业区的交通量?它可以用文字告诉我如何做到这些,但它无法做诸如放置建筑物、重建道路甚至为该区域的风格选择最佳外观等事情,因为这完全超出了它的范围。
而且你无法行动。你根本无法行动。是的,这是一个非常基本的感知。它是什么?它看到了什么?它有什么背景?以及认知?它是如何规划的?它是如何推理的?驱动它的非常简单的引擎。
实际上是,我会和它说话。它会说,哦,你知道的,这个人关心建筑。我会把我所知道的关于建筑的一切都提取出来,然后转换成一个很好的回应。我们一起将他们的问题变成了我的回应。然后,砰,现在我们有了简单的对话式 AI,但并没有领先太多。我这么说,你知道的,充满爱意和深情地说是简单的任务完成 AI,对吧?它仍然非常像呼叫和响应。你有一个动作引擎是
你说,你知道的,我有一个代理,它只能在我告诉它们的时间和地点精确地建造新建筑。我可以说,在这个十字路口放置一座建筑物,它就完成了。我可以说,将建筑物更改为此类型,然后,它就完成了。对。而且,
虽然你认为这需要一点更多的感知,也许需要一点更多的推理,肯定有一些行动。它仅限于一组非常小的动作,它几乎只是带有额外步骤的脚本。它知道它会期待什么。它在等待我说出它可以映射到的方式。这就是建筑行动的地方。我会建造一座建筑物,完成了。如果语言模型。
提供描述,包括,我希望我可以将背景更改为山脉或其他任何东西,对吧?或者想象一个带有山脉的背景,但它无法行动,对吧?系统可以自动化吗,你在谈论什么,以便语言模型可以告诉动作认知模型该做什么?我不记得你用了什么术语。
我的脑海里浮现了大型动作模型这个术语,是的,我对这个术语有一些想法,但我不知道这些想法是我的还是不是。所以我们可以深入探讨,但是你,但是你绝对暗示了,我会,
再说一次,我应该事先说明这一点。有四个阶段。我们处于第二阶段。我认为很多虚拟助理都处于第二阶段。你对意图识别或被动意图识别的描述是,你知道的,这些没有正式名称,但我称之为自适应伙伴阶段,其中 AI 正在自行观察和响应变化。对。
这是许多 AI 系统今天正在走向的自然演变。CES 是一个很好的例子。我毫不怀疑,在这一年中,你将非常接近于将其作为另一个核心标准。我认为现在,许多简单的任务完成 AI 都是企业和游戏中的核心标准。这个自适应伙伴阶段,你知道的,在这个比喻中,这个代理会注意到变化,例如新修建的道路或涌入这个地区的新居民,你
自动调整施工计划。它不是在微观管理每一个决定,但感觉你正在与一个拥有足够背景知识来自行做出明智决定的代理或单元进行合作。就像一个推荐引擎的演变,它是由认知引擎驱动的。所以它不仅仅是学习,而且感觉它甚至在我们提出要求之前就了解了我们的需求。我希望在明年看到很多这样的情况。
- 对,好的。- 再说一次,我认为那是第三阶段。我认为还有第四阶段。我认为这是一个完全自主的代理。在这个阶段,再次继续我们的比喻,是一个玩家二,对吧?玩家三是它正在适应我们。第四阶段是,嘿,这个东西是一个完全独立的代理。感觉我正在与另一个人类对抗。它正在做出对自身目标最优的决定,就像我的目标一样,或者不一样。我认为很多人在考虑自主 AI 时就是这样想的。
他们认为我们今天就在那里。部署这些系统以达到真正自主的代理还有相当大的差距。现在的淘金热是创建一个认知、感知和动作引擎生态系统,让用户感觉自然。我正在与 Chris Covert 谈话。Chris 是 nworldai.com 的产品体验总监。
我让他有点,我让我们有点暂停他们的产品发布,以便将这个从抽象一点带入具体。我很高兴你听从我的建议,Chris,因为我认为深入研究,好吧,这些东西实际上意味着什么?它正在移动。我想说的一件事是,它正在移动和发展,也许术语正在移动目标,但技术和实际发生的事情正在发展,而且速度仍然如此之快。
好的。所以有两个问题,但它们是相关的。一个很简单。另一个是后续问题。助理的可用性如何?你知道的,它处于非常早期的演示状态。你对这个有什么路线图吗?我不应该说可用性,而是路线图。这可能是对第二部分的回答。但对于 Inworld AI 来说,还有什么在你的视野中?我的意思是,你之前谈到了更广泛的视野......
自主 AI 和化身以及助手等等,但如果你愿意,你可以回到那里,看看今年即将到来的一些事情,你对此感到兴奋。哦,我的天,今年是近期的说法在 Nworld 很有趣,因为我们,我们行动非常迅速。这个,这个今年是许多近期叠加在一起的。对。我猜我们现在正在录音,但它将上线。你知道的,有一个,有一个缓冲区,并且
我们参考了 CES。是的,我们当然对这个演示有产品化的雄心。我们在 CES 之后所做的是,我们正在以多种新的方式改进我们所构建的内容。再说一次,为演示而构建的内容是一个概念验证,就像展会上的许多概念验证一样。它对我们想要的所有输入都不够强大。它对我们希望它可以使用的所有游戏都不够强大。因此,我们正在尝试以一种智能且战略性的方式构建该生态系统,以便
如果它要上市,它将可供尽可能多的想要利用此类技术的流媒体使用。所以请关注即将发布的内容。我毫不怀疑,在 NVIDIA、InWorld 和 Streamlabs 之间,所有公告以及我们可以在其上展示我们进步的所有可能的展会都将在适当的时候展示。所以对此非常兴奋。
至于 Inworld,哦,我的天。这是一个如此令人着迷的问题,因为我们正在做的很多事情都是与合作伙伴一起做的,这些合作伙伴的游戏开发周期如此之长,以至于......
我希望在游戏发布后,以及未来四五年内,我们能够体验到更多由游戏世界驱动的体验,这取决于我们合作公司的规模。因此,随着我们平台的发展,我对未来充满期待,正如我们在过去一年左右所看到的,越来越多的公司
成为在这个领域提供AI工具的竞争者,以及那些帮助这个行业变得更容易被不同背景的人们所接触到的优秀合作伙伴。我真的很希望看到,我不会说工具的整合,而是可及性,我会继续使用这个词,不同AI平台的可及性。嘿,我想使用这个模型,但在这个引擎中变得更容易。InWorld的目标当然是为
尽可能多的行业做到这一点,特别是游戏和娱乐行业,但这离不开像英伟达这样的合作伙伴以及你们在ACE方面所做的工作。我认为InWorld的目标是让这一切变得更容易,继续与工作室合作,找到乐趣
并让每位玩家相信,让我说实话,尤其是YouTube上的评论者,嘿,确实存在这样一个世界,这项技术不仅有趣且具有沉浸感,而且是整个行业视为其黄金标准的东西。
所以我认为我们到达那里比我们想象的要快得多。我认为它近在咫尺,但我非常高兴能够继续与创意人员合作,帮助他们讲述故事,帮助他们,你知道,尽可能地发挥和运用他们的想象力,以创造最佳的体验。
我们每天都在这样做。我们可能短期内看不到,因为游戏需要一段时间才能制作完成,但我真的很兴奋。太棒了。好吧,我完全赞成更多乐趣。这个世界总是需要更多乐趣来平衡其他一切。Chris,对于想要了解更多关于我们可能讨论过的任何特定内容或只是广泛了解Inworld内容的听众,他们可以在网上哪里找到?网站,很明显,但有社交账号吗?是否有单独的博客甚至研究博客?
你会把人们引向哪里?是的,以上所有。你可以在inworld.ai找到所有这些。我们为合作伙伴和体验提供博客。我们有技术发布。我们进行了研究。如果你想随时了解我们发布的所有公告,所有社交媒体链接都在那里。我们玩得很开心,我们喜欢谈论它。所以一定要随时关注。
太棒了。好吧,感谢你抽出时间与我们谈论此事。我们感谢你。并祝你和Inworld AI在今年所做的一切一切好运。也许我们以后可以再做一次。我很喜欢。非常感谢你,Noah。感谢你。谢谢。