We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

EP09 全英文专访Xue Bin(Jason) Peng：人形机器人全身运控的探索

2025/4/27

ReSpark

AI Deep Dive AI Chapters Transcript

People

Jason Peng

Topics

我：我叫薛冰鹏，是研究院教授，同时也是 NVIDIA 的职业科学家。我的研究主要目标是车辆控制，与电子画面和维修工具的应用相关。我的作品集中在工程学习的技巧上，让模拟和实际动作被人和动物修改。我曾与 Michiel van de Panne 和 Pieter Abbeel 一起工作，他们对我的研究和思考影响很大。如果没有 Michiel van de Panne，我可能不会从事现在的工作。我向他提出想尝试做一些动画研究的经验，当时我并没有太多考虑综艺。当我开始做动画时，机器学习还不多，主要是传统的 NPC 技术和自制控制器，但那时 DeepMind 出现了。看到 DeepMind 的文章后，我们开始更深入地研究深度学习技巧，将其作为模拟角色的工作控制者。

Deep Dive

Shownotes Transcript

欢迎来到 RaceSpark 我们今天的访谈对象是 SFU 的助理教授 Jason Peng 他的中文名叫彭学斌

做人型机器人运动控制的朋友对彭学斌的工作一定非常熟悉去年开始我们看到人型机器人很多拟人的高质量的视频这些人型机器人的 demo 很多都是基于 Jason 早年的一些工作包括 Deep Mimic AMP ASE 等这些方法极大降低了人型机器人模仿学习的技术门槛可以说 Jason 的研究奠定了现代人型机器人灵活自然运动学习的重要基础

值得一提的是 Jason 的学术道路融合了角色动画 Character Animation 和强化学习两大方向的深厚积累因为 Jason 的日常交流语言是英文所以本期播客是全英文对话也欢迎订阅微信公众号石麻笔记或者我的 Substack 账号查看文字稿

这次访谈我也邀请了国际共进巨声智能机器人创新中心学术委员会主任张强博士来一起主持您能不能介绍一下自己包括主要的研究背景和有关的兴趣?当然,我叫薛冰鹏我是研究院教授,还有我也是 NVIDIA 的职业科学家

我从波克利工作的专业研究员,与 SIRC-11 和 Peter Beale 合作,我研究的主要目标是车车控制,与电子画面和维修工具的应用。

我最多的作品集中在工程学习的技巧上,让模擬和实际性动作的动作被人和动物修改。

我发现你与 Michael,一位最有影响力的角色剧组织师和 Peter Abbeo,RL 组织的首席执行员,一起工作。这两位教授如何影响你的研究和思考?开始是 Michael。他在我中学时,在英国伯特斯特大学的教授职位中,是我的教授。

如果不是麦克我可能不会做我现在的工作所以我开始与麦克合作的原因是因为我学习电脑数学我感兴趣我希望尝试在电脑数学上做一些研究麦克是一个 UBC 教授专业在角色模型上的学生

所以我向他提出想尝试做一些动画研究的经验所以当时我并没有太多考虑综艺我只是希望做一些与画面有关的研究当时动画的结果是

当我开始开始用动画时,我认为没有那么多机器学习,仍然是传统的 NPC 技术和自制制作的控制器。但这大概是 DeepMind 出现的时期,与 DQM 和 Atari Nature 的图片。

当我们看到这篇文章的时候,我们开始更深入地理学和深入地理学的技巧,作为模拟角色的工作控制者。这就是我们开始更深入地理学和深入地理学的技巧。

欢迎来到 RaySpark 我们今天的访谈对象是 SFU 的助理教授 Jason Peng 做人形机器人运动控制的朋友对彭学斌的工作一定非常熟悉去年开始我们看到人形机器人有很多擬人的高质量的视频比如 Boston Dynamics 和这个语术的跳舞等视频欢迎来到 RaySpark 欢迎来到 RaySpark 我们今天的访谈对象是 Simon Fraser-Josnoglou

欢迎来到 RaySpark 我们今天的访谈对象是 SFU 的助理教授 Jason Peng 他的周文名叫彭学斌做人形机器人运动控制的朋友对彭学斌的工作已经非常熟悉去年开始我们看到人形机器人有很多拟人的高质量的视频这些人形机器人的 demo 这些人形机器人的 demo 很多都是基于 Jason 早年的一些工作包括 DeepMimic AMP ASE 等

这些方法极大降低了人型机器人模仿学习的技术门槛可以说 Jason 的研究奠定了现代人型机器人灵活自然运动学习的重要基础值得一提的是 Jason 的两位导师值得一提的是 Jason 的学术道路融合了角色动画 Character Animation 和强化学习两大方向的深厚积累他在本科和硕士阶段

University of British Columbia 著名动画教授米凯尔·万德潘这位教授他的本科和硕士阶段是从 University of British Columbia 著名的动画教授米凯尔·万德潘这位教授是 Character Animation 领域最有影响力的人物之一

随后他在加州大学伯克利分校攻读博士是从机器人学习领域的两位顶尖学者 Sir Galloway 和 Peter Bell 在强化学习和机器人智能领域打上了坚实的基础

因为 Jason 的日常交流语言是英文所以本期播客是全英文对话因为嘉宾使用设备的问题录音质量不是特别的清晰听众也多多包涵如果觉得听不清楚也欢迎订阅微信公众号石麻笔记或者我的 Substack 账号查看文字稿那么接下来就让我们一起来听听 Jason 在那么接下来就让我们一起来听听彭学斌

那么接下来就让我们一起来听听彭学斌教授在机器人那么接下来就让我们一起来听听彭学斌教授在人形机器人运动控制方面的一些洞见吧在我中学的学习中我主要是在电脑模式上的工作

然后我开始习课时,与 Surgi 和 Peter 一起工作。这就是我开始更多地研究使用这些技术来发展机器的控制。

所以我认为所有这些教授都非常影响我的事业,如果我没有幸运,我会做出很不同的事情。您的研究从虚拟性的角色学习,从画面学习到真实的综艺训练,都似乎是真实的转变。您认为这两个有什么最大的区别?

我发现我开始做维修时,我发现很简单的事情在模拟中我以为很难做,但实际上是很难做的。例如,实际上的数据是比我预期的更难做的。

当我开始做模拟时,我经常有所有的模拟的全能的观察能力。我可以很容易接触到我所要的任何一块数据,例如位置和速度,整个工程的整体状态。当我开始做综合工程时,尝试运用甚至非常简单的东西,例如综合速度和综合,结果很难,需要很多工程,甚至有很详细的数据。

所以我认为细节观察是我开始在维修工具中的惊喜之一我认为现在仍然是一个挑战所以在真正的维修工具上,你对实际的维修工具有什么印象?我觉得挑战和数据估计是一个令人印象深刻的事情我认为另一个因素是设定的运作方式

当我做过测试时,动作几乎都没有改变,实际上是很容易的。如果我用控制器,它会有效,那我可以做到我想要的事,最多的情况会是很均匀的。但在真正的机器上,动作的动作总是会改变。如果我用控制器,它可能会有效,但可能在一段时间后,控制器的行为可能会变得非常不同。

如果你让它们运行更长时间,它的动态也会更改。所以,10 分钟前的控制器可能再次运行,如果你运行后。我觉得一些主要的挑战是真正的交换,包括细节观察力,不确定性和无限度的动态。我认为,在我们正常的执行中,

在尝试解决这些挑战中,Central Rail Transfer 主要依靠地址数码数码数码。我们的工作主要是在模拟中训练控制器,然后我们将控制器转发到真正的机器上。

我们尝试去解决这个现实的障碍是为了尝试与模拟模式的进行模拟并逐渐地设定了模拟的动作希望控制员能够学习有足够的设计,并且能够使用网络模式所以我认为,网络模拟是我们目前最初的选择方案

很多人都提到你现在的工作是基于身体控制的基础。例如,在 RL 的程序上,你工作在 AWR 中是基于基础性和影响性的,并且在户外的 RL 中有很多人接触。在动画项目上,你的项目如 DipMimic、AMP 和 ASC 等项目,都被认为是最有能力的人工模拟模式的主要功能。

另外,您专注于通过 RL 进行车辆设施,包括 Libchies 的政策学习和中玉的 RSS 的最佳文章。您能否给我们一个系统的看一看所有这些重要的研究题目和项目?以及这些工作之后的主要想法是什么?以及他们所承担的重要问题是什么?

我可以开始说说我之前的作品 DeepMimic 是我们之前的作品,我们试图发挥模拟性能的控制器。DeepMimic 的主要理由很简单,就是深入的重新学习和动作组成。

所以,这就是我们的历史,我们的发展是什么?我们的发展主要是为了建立模拟性的角色,以使人们可以发展不同的模拟技巧。我们之前的 D-Mimic,我们有很多的角色模拟,我们的模拟技巧在组织中有些模拟性的特征。

所以,在动画中,研究者将用很多在维修工具中的技术来建立控制,例如,选择,最高控制,负荷,

而很多这些方法的问题是,它们并不太一般。很多手术工程需要设计控制者的不同行为。比如说,有很多文章写出如何设计好走路的控制者。然后,你可能会有很多其他文章设计控制者,例如跳舞、跑步,或者甚至更复杂的技巧,例如 acrobatics。

但这些控制要花很多时间和努力,尽量设计控制员为你想要的特定技能进行。通常,控制员设计一个技能,例如走步,可能不适合不同的技能,例如跳步。你需要设计,花很多时间设计另一个控制员为你设计新的技能。所以,这种方式并没有

在長期間並不太可靠因為此,很多之前的動畫報告都很專注於解決很具體的行為所以他們並不太公平我們想與 DeepMimics 合作的是我們想嘗試設計一個公平的模式可以將任何人的技能都重新製造

我们是以一些近期进步的深入设计学习方式来讨论它,例如使用设计学习方法来训练脑内网控制者。这对设计控制者的原则是这样的。

当你模拟控制器和综合计算机时,你会有一个非常适当的表达性的功能传输器,它可以很快地传输任何你对的功能。这让我们有很多挑战,例如设计技术主要控制组织,比如负重质量的机器,这些机器非常小心地调整某个技巧。

因此,代表控制器与脑内的组织,我们可以用同样的控制组织使用任何我们对其他技术有兴趣的技术。另一个功能是动作控制。因此,当您有这种脑内控制器时,您如何训练这种控制器以实行所有您对其他技术有兴趣的技术?

通常,在转向学习的方式中,你可能会花很多时间设计技能特定的功能功能,以创建你所要的控制。因此,在转向学习的方式中,你可能会花很多时间调整一个转向学习目标,以获得一个走动或跑动。

所以这个方式也不太能够扩大因为你把很多努力花在设计控制器的设计上, 也把这些技能特定的功能功能设计成了这样的方式。我认为我们在谈论这问题时,我们想要做的, 而不是设计技能特定的功能功能,我们只有一种总的功能功能,就是以参与参与模式来模仿。

而在这种情况下,我们的功能是,你给了一个参照动作,你尝试训练控制器,尝试在框架上的参照动作,框架上的框架。我认为我们对 MIMIC 的重要发现是,如果您将这个组织组成,然后使用它来训练一个组织控制器,以波式参照方法。

这就给你一个非常简单的模式,你可以学习几乎任何模式的技能,你可能想要控制来执行,所以,而不是要设计控制者,每个技能你希望一位经纪人执行,你可以展示不同的参考动作,然后你就可以把这个追踪目标提升至于得到控制者,那些技能的重生。是的,所以,我认为这些可能是一个深入的描述,所以,可能我们可以说的下一个,

是会有安排反动准备的所以这是一个继续的工作,是深入地模拟的这个工作的主要问题是为了发挥更有强化的目标为了训练控制员们以重点准备准备准备准备的内容所以,我们没有深入地模拟的工作我们有一个非常简单的训练控制员的模式来做不同的技巧,以重点准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准备准�

但与 DeepMimic 有关的重要限制是我们用动作追逐目标来模拟这些模拟动作的方式我们在训练控制中,我们只是尝试从模拟动作的目标中,从模拟动作的档案中,追逐目标

所以,这是很好的在非常仔细地模仿引擎动作的行为。这就是我们在很多人工智能模拟中使用的东西。所以,我们看到的那些人工智能模拟中的所有控制器,他们都会发生非常令人印象深刻的行为。这些是以动作检查技术来说,我们比较熟练的。

但移動測試可以讓你模擬很多不同的參考動作但限制是你得到的控制器不太能夠用力所以你得到的移動測試控制器在 DMIMIC 的結尾上是比較或少限制於指定參考動作的測試是比較或少限制於重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重新重

它也不能做任何其他事情它可以从参照模式中避免做任何任何工作所以在 AMP 我们想尝试发展更有测试性的学习目标这种目标不太限制控制器不仅仅是在参照模式上的参照模式上限制

Katharine,我們在 Altum 的主要理解是,你可以將這個更有彈性的偽測學習目標換成了更多的分辨目標,而不是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而不是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制器的模擬模式,而是要控制控制控制器的模擬模式,而是要控制控制控制器的模擬模式,而是要控制控制控制器的模擬模式,而是要控制控制控制器的模擬模式,而是要控制控制控制控制器的模擬模式,而是要控制控制控制控制控制的模

所以你能够用这种分辨选项目来实现的方法就是用我们的与似乎相似学习的方法就像是在 GAM 上训练一个误判者那种动作会试图证明那种动作是从你的动作数据中发生的或是由你模拟的角色所制造的所以

而模擬角色的工作是以以行動作來製造被消滅者的行動,以以行動作為數據的模擬模式而這套逆軌模式讓你做的就是讓模擬角色以更積極的方式來偽造行動所以它可以只是以模擬模式製造像數據一樣的行動但它也不需要完全遵守任何一個模式的模式

这种逆向目标让控制者,比如说,组合不同的转换或不同的动作,以维持可能新的行为,而不是原来的数据。所以,这种更有强化的偷偷学习目标让你训练一个角色,以偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷偷�

所以它只是提供了一个更有异性的误解目标在 AMP 上,有人试图重新制作这个产品时,他们经常提到他们遇到一种普遍问题:政策学习中,只有一个框架的改变结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结果结�成为一个单线的改变,结果结果结果结果结果结果结果结果结�结�结果结�结果结�结果结�结�结果结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结�结

我认为,根据你设计的选择,你可能会找到一个最好的位置,在哪里,角色可能会被困在某些档档。但我们平常是为了解决这些问题,我们会给予一个比较长的档档。

所以,你不需要训练"Discriminator"在 2 个档上,你可以训练"Discriminator"在 10 档上。

因此,在一个特定时代的转换中,在那种情况下,就像是被困在一个特定的时代中,它们就不会再看起来真实了。如果被捕,它就必须要看过更大的时间线。在练习机械技术的训练中,机械方法使用了不同的功能来代表不同的功能。

然而,这些隐秘的地方很少被人人认为。您的研究是如何确保公平性和公正性的政策,与隐秘的地方有关的项目相关?例如,避免意外的行为被迫使的隐秘性价值。我认为,一种方法是我们的继续工作,即是对抗性价值的批准。

所以,对于很多训练用 VAE 类型的模型来说,一种相当困难的问题是在遥控空间中有些位置,你能够在遥控空间中检查一些不像数据的行为。

我认为这不是完美的解决方案,但我们的工作人员尽量去解决这些问题,以 GAN 类型的模式来训练这些类型的模式。我们的工作人员的主要目标是 GAN。

如果有一个有关系的代码,它会尝试把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码,把它的代码

模型是具有課程的,以測試在懶散空間中每個點的模型圖示出一些被操縱者的行為,像是動作數據的模型。所以,這幫助阻止這些懶散空間中的圖層,可能會被測試出不同的動作數據的行為。但重點是,

这并不保证你没有任何奇怪的行为,但有些在懒人的空间中可能会发生一些不自然的行为。还有一个问题关于 MathMimic。那么,MathMimic 和真正的机器人工的执行中,是如何大的区别?我觉得现在仍然是一个很大的区别。在模拟中,我们可以训练控制者,

可以重新发动数千的动作图片现在我认为实际上的机器人在真正的机器人上我们仍然在这个我认为现在很多在维修机器工作的人可能仍然在深入的迷信阶段中我们有个人的机器人他们更或少在重新发动个人的动作图片或个人的技巧

目前在动画中,我们现在有控制器可以重新发展数千的技能但问题是我们仍然可以可靠的把控制器转移到真正的机器因为现在,在 SIM 转移到真正的机器上,当你训练控制器和测试时,当你将它转移到真正的机器时,你仍然可能需要做一些真正的机器的调整,以使控制器能够成功地转移到真正的机器

但如果你试图把控制器传输出来,它可以重新发展千万个技巧。所以,我们很难在真正的机器上调整所有技巧。

像是移动检测方法,例如 MIMIC AMP 和 ASC,都是一种必要的移动学习方法。但正如移动学习的主要用途,通常用于调整任务。这种移动学习的方法是基于 MLCAP 的数据。所以,它们只提供数据的数据,而不是行动或执行。

因此,RAL 必须要通过这种动作来达到正确的行动。

您认为,在转型学习的关系中,哪些是比较长期的?我并不确定与转型学习和强化学习的关系是否直接相比,因为它们的原则是相同的。

所以,偽训学习可以使用专业学习或供应学习,根据您的资讯。供应学习是一种方法来使用偽训学习。但供应学习也不需要是偽训学习,因为您也可以使用 Auroto Train Controller,没有任何示范资料。

所以我不认为它们是直接相比的,但如果我来比较,比如说,假设我学习偽语学习,以或无 RL 来比较,或是以或无任何示范数据来比较。有点有利的是,如果你不需要任何示范,你通常只是直接训练控制一个特定目标。

而目的就可能是人工设计的。这些有利的地方是,人们可能没有发现有趣和更好的行为。比如,像 AlphaGo,它能发现人们之前没有想过的方法。

我认为这是能够提升学习的能力但是与专业学习学习的强弱点是它总是需要很多的收获设计去得到你想要的行为如果你想要训练一个专业学习员去实行一个特定的行为你可能会要设计一个相当复杂的收获功能以确保专业学习学习者学习的实际性是你想要的那些就是专业学习学习学习学习学习的强弱点

但现在,在传统学习的情况下,我认为你会有相反的优势和缺乏。传统学习中,你会有一个更容易的方式,以示范呈现实行动的行为,因为你正在训练控制者从你的数码中传统行动,所以你能尽可能地确保它们至少会尽可能地发生一些更人类化或更自然的事情。

但是,学习偏差的缺点是:第一,捕捉数据不总是容易的。根据你所在的任务,可能没有很多人能够做到任务。第二,

控制者也会更加被限制于他们所发现的行为。所以,可能他们只会尽可能解决过去人类使用过去的行为。他们可能不会发现人类未曾想过的更新的行为。

在转动模式上的强化学习中,我们看到了很多进步。实际上,这些方法可以在真实世界中使用,例如,现在正在解决一些现实世界问题。但是在扩大方面,有很长的路要走。您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么?您的观点是什么

很多人都关注到 VLA 和传统学习的问题但是对于有可能的 RLE 传统学习的问题,没有太多人关注到这些问题所以我非常想知道您对这个问题的观点我认为这是为什么传统学习没有在目前的时机上使用到这么多的传统学习

我认为有利的可能是因为有些人对行为和专业学习的执行有限度而有利的

你可以建立一个电脑运作系统,用来换取大量的数据,然后用来训练控制和运作。但目前,这并不是在现时的 LocalMotion 的选择。因此,在 LocalMotion 中,我们已经被迫使用从开始的防御学习,而在执行的过程中,他们仍然可以获得大量人工数据。

所以,是的,目前的训练和操作控制的工作主要是行为控制和专业学习。但我认为这些 VLA 模式,他们会后来遵循同样的趋势,例如大语言模式。所以,在大语言模式中,我们有专业学习阶段,我们只是在训练模式中专业了很多人工资料。

但是为了实际上更好的表现在一个特定的任务上

专业的模式,我们可能还是需要进行一些精准的调整或专业的专业的强化学习,我们想要的特别的任务,我认为这将会是未来的同样的调整模式。所以现在他们可能会精准地专业学习大量的电脑行动数据,但是现在,当您想要

当你想尽可能地重新提升表现在某个摩托任务上时,我觉得这就是一些维护设施的改善。在维护设施上来说,最近我们有增加的兴趣在维护设施上的 VLA 批准。您对维护设施的大型设计业的批判是什么?您认为它能做到吗?

我认为这种大型、多模型的模型非常有信心我们看到了一些非常有趣的大型模型的出现行为我认为现在最主要的下项是输入速度在这些模型中,输入时间可能会把他们防止实时低级控制

所以这就是慢思考和快思考之间的区别我觉得很多这些大型 VLA 模型他们可能会主要作为高层计划员,很不经常的行动而他们可能会设定计划,最终会被执行的会是一个比较小的、快速、低层控制者

所以我认为这些 VL 是非常奖励的,但是我认为其中一个失败的功能,特别是对于低级控制现在来说,是我们失去了一个好的低级控制,可以把高级的加密度转化到低级的加密度

那没有这个低级控制器,VLA 似乎未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来未来

需要一个控制器可以在很高的速度上运作我们没有电脑可以做这些大型 VLA 模型在轮胎技术的领域中,你认为企业有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有些时候有

在某些程度上,企业已经越来越好地得到这些机器人类的很协调的行为因为如果你是机器人,你会有很深入的理解机器的工作如何以来得到机器人类的最佳表现我认为这些是经常发生的

因为我们不建设自己的机器我们只买机器的所以当我们来做人工机器的实际试验我们觉得企业肯定有大优点

但我认为现在,我看到的优势是与企业的优势相比,我看到的业务是在发展一些更具有主要的控制模式。他们不仅仅是一个人的行为,希望他们能够进行更具有主要的基础控制模式,他们可以在人体中实现任何行为。

所以我认为在学术上,这些普遍模式可能会有更多的前提,但这些动作的质量可能不会像现在的业务中所见的那样好。那么,你认为未来的研究题目是否有兴趣或有奉劝?

我对现在有兴趣的方向是在尝试发展更具有主要的控制模式而不是只专业于一个特定的技术上的控制模式希望我们可以尝试在人类上发挥任何一个模式的技术上发挥这种主要的模式我们看到了很多很诚信的工作例如 CMU 的 PHC 但我认为现在很多控制模式中缺的东西

如何得到控制者可以保证自然的行为?如果你有这种总控制者,那是什么影响性的方法来使用它在新的任务中?我认为现在很多

现在我们有的很多可使用的控制仍然非常短暂,非常简单的工作,非常简单的选择。所以,我认为我们想推动的一种方式是如何发展更具体的模式,以及如何能够使用它们以更复杂的行为。Joni,你有其他问题吗?是的,对于总控制,Jason 先生,我认为您的工作

正如建民所说,它们正在发展人工统统的发展。目前我们可以看到,

有很多人用的迷你模式,例如迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你模式,迷你

我意思是在某些固定的

reforcement motion tracking,which is quite similar tobehavior clone in generative models.Like before we use a rational autoencoder,we use a behavior clone neural networks.So like some work like a VMP and some works they use a latent motion space or you like

做我的实际试验中,我认为我发现了一些逻辑,例如 AMP 有些问题在调整。所以,当你有 1000 多个 CAP,

100 万的 Vocab data 是很不同的所以我觉得 AIC 是一个很奈何的方式我的问题是你认为人工维修机的未来应该是什么样的?我们能从生成模式学到什么?我认为我找到一些工作

VAE,有些用不同的模式。所以当我们调整,我认为我们可能会有更多的级别,比如 100 亿或更多。所以我们使用这些数据。

所以我认为未来这些比较普通的模型,我认为未来的控制者会只是比较普通的模型,所以不过,他们可能会只是更多的指令

所以我认为未来,会有更多的用于自动模式作为控制者的建筑物。然后问题就在于,这些自动控制者的训练有什么高度的方法,可以让大量的数据和数据大量的数据和数据大大增加?

如果你有在你的数据中的行动,那就是最有效的学习方式。如果没有行动,那就是在强化学习的情况下。我们的经验是,动作追踪其实是最有效的方法,当你专注于大型模式上的训练。所以,我们有很多的代理方法,例如 Aband A,你对的,当你尝试调整数据时,你会开始受到糟糕的模式崩溃。

在模特就像是被摔倒的小部分的行为但是我们发现这不是一个问题如果你训练模特用的动作追求目标所以这就是分别之间的专业学习和敌人学习的技巧所以我觉得我们最近的工作中像是 MathMimic 我们已经回过来用追求基础方式去训练这些生成模特或控制

您认为我们需要一个遗传空间吗?我们需要设计遗传空间,例如使用 Gaussian,使用 Forea,Transform 吗?您认为我们需要一个遗传空间吗?我认为遗传空间不需要必要的,它不是必需的。遗传空间是一个代表性的模式,以设定复杂分布,

但也可能可以创造一个好的 Gentile Model 也没有 Latent Space 对吗?所以对于大语言模式来说,那是一个非常强大的 Gentile Model,它不可能用 Latent Space。我认为你可能可以做到类似的事情,例如控制器。但是说到这一点,现在的 Gentile Models,他们有的,他们用了一些 Latent Space。比如说最好的 Gentile Models,比如 Fusion Models,

用作懈怠的空间,这可能是我们目前使用的最有效的模式。但我认为懈怠的空间不一定要是我们必须有的。我们需要的只是一个非常强强的并强化的正常模式,可以模仿非常多元的行为。

你可能需要尝试一下,并且确认的。我不知道这是否正确,所以在总控制器中,你可能会使用一些专业的混合。你认为吗?

所以我本来不是很喜欢混合专业模式的模式因为如果你专业的控制器训练在不同的层次之下,然后尝试将它们混合之后,那不保证那些专业的专业会实际上合作得很好,比如说,不保证那些专业的专业可以实际上进行与不同的专业的执行的执行,所以我觉得

那种训练分别的专家,尝试把他们共同组成,我觉得是一个非常细腻的方式,你可能不会得到最好的表现。所以,专家的混合学都在现在的大型模式中使用,但是他们通常是在结束的方式上训练,在混合学的模式中,

分别的模型你一起综合成一套是一个混合了你的技术的领域而所有东西都从头到尾都练习了所以我觉得这个方式可能会比较有信心

我认为我们需要训练不同的专业,然后一起合作。这是我的总理,我喜欢训练每个东西的结束,而不是尝试与他们合作。我的最后的问题是,您对人工智能的硬件有什么推荐?您对现时的硬件有什么指示?

我认为因为我工作的大部分的支撑似乎是实际的交换我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我认为我�

尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动作,尽量保持摩托车的动

所以这些模特儿有很大的挑战。是的,我认为模特儿的动作是我们书中经常遇到的最大的真正的路隙。是的。

你有什么问题想问我和 Jony 吗?或者我可能知道的问题?我对你的看法,从 VC 的看法来说,我对 LocalMotion 的现时的兴奋性是什么?有什么特别的应用?

可能会在短时间到中间的时间中有很大的影响。对,目前我对小型人物有兴趣。例如 50 到 60 岁的小型人物,

因为我女儿四岁我带她去一些练习练习机会她看到一只从运动园看到狗从运动园和深入练习机会

她哭了。那种大小的小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小小

如果这种机器来到我们家里,它应该很小,但太小的话,我觉得它会限制它的动力,如果它的尺寸太小的话,它的动力就不会很好。所以,我认为,可能 50 到 60 是比我女儿低,但是它可以来到家里,而且可以进行一些种类的动力。

哦,我明白。是的,就像,是的,它安全,人们可以做一些这种机器的事情。

可能在未来会更便宜但是现在小型的摩托车也很贵的就像是银行市场哦,这个很有趣我认为小型的摩托车会比较少对我来说,这就是我们将来看到的唯一方法是将来能看到人类进入我们的家哦,我明白哦,是的,这很合理

EP09 全英文专访Xue Bin(Jason) Peng：人形机器人全身运控的探索 48:29 Share

ReSpark

Deep Dive

Shownotes Transcript

EP09 全英文专访Xue Bin(Jason) Peng：人形机器人全身运控的探索