欢迎来到麻省理工科技评论有声版。我的名字是马特·霍南,我是我们的主编。
每周,我们将为您带来来自科学和技术前沿的引人入胜的深入报道,涵盖人工智能、生物技术、气候、能源、机器人等主题。本周的故事,希望您喜欢。我的名字是梅丽莎·海克基拉,我是她的资深记者。
这里是麻省理工科技评论的人工智能报道。即将听到的故事讲述了人工智能如何彻底改变机器人技术,并使我们更接近几十年来梦寐以求的实用家用机器人。在故事中,您将听到加州两位开创性机器人研究人员亨利和简·埃文斯的声音,他们多年来一直在测试家用机器人,以帮助亨利克服残疾。他们的故事很好地说明了这项技术不仅可以帮助完成日常任务,例如洗衣,还可以真正改变人们的生活。我真的很期待看到这个领域未来的发展。
谢谢收听。收听来自全球顶级出版商的更多精彩文章,请访问APP新闻有声版网站。亨利和简·埃文斯夫妇已经接待了多位家庭客人超过十年。
这对居住在加州洛斯阿尔托斯山区的夫妇,在2002年开始在家里接待各种机器人。40多岁的亨利在一次中风后,失去了四肢的活动能力,也无法说话。从那以后,他学会了通过眼动仪来进行交流。
但他高度依赖护理人员。而他的妻子简·亨利,在看到CNN上查理·坎普在20年左右的报道后,看到了另一种生活方式的希望。乔治亚理工学院的机器人学教授金·坎普在节目中谈到了由威洛车库公司开发的机器人PR2。
PR2是一个巨大的双臂机器人在轮子上,看起来像一个粗糙的金属物体。坎普教授演示了机器人的工作原理,并谈论了医疗保健机器人如何帮助人们。
他展示了PR2机器人如何将药物挂在电视节目主持人面前。
亨利转向我说:“为什么这个机器人不能成为我身体的延伸?”我说:“为什么不能?”简说:“有充分的理由。”虽然工程师在让机器人工作在受控环境(如实验室和工厂)方面取得了很大进展,但在现实世界中,家具和布局差异很大。
孩子们和宠物可能会妨碍机器人的工作;需要折叠的衣服形状、颜色和尺寸各不相同。管理这些不可预测的环境和各种条件,甚至对最先进的机器人原型来说都是一项挑战,但现在似乎正在发生改变。在很大程度上,这要归功于人工智能。几十年来,机器人专家们更多地关注于通过目标驱动的软件控制机器人的身体、手臂、腿、杠杆、轮子等。
但新一代科学家和发明家认为,此前缺失的人工智能成分可以赋予机器人比以往任何时候都更快地学习新技能和适应新环境的能力。这种新方法,或许可以最终将机器人从工厂带到我们的家中。当然,进步不会一蹴而就,埃文斯夫妇的经历也证明了这一点。
多年来使用各种机器人原型,PR2是他们最初引入的机器人,它为亨利开辟了全新的技能。它可以握住剃须刀,亨利可以将脸贴在上面,从而自己进行剃须和刮擦,这是十年来第一次。但是,由于PR2重达450磅(约200公斤),价格高达40万美元,所以它很难在家里使用,它很容易损坏房屋。
简说:“我并不喜欢它。”最近,埃文斯夫妇一直在测试一种名为Stretch的小型机器人,该机器人由坎普教授的初创公司Hello Robotics开发。该机器人于疫情期间推出,价格相对合理,约为18000美元,重量约为50磅。
它有一个小型移动底座,一个带有摄像头的杆子,以及一个可调节的机械臂,末端带有吸盘。它可以通过控制台控制器进行控制,亨利使用带有工具的笔记本电脑控制Stretch,通过移动鼠标来控制机器人的动作。
他能够移动拇指和食指,足以点击电脑鼠标。去年夏天,Stretch陪伴这对夫妇超过一个月。亨利说:“它让我获得了前所未有的自主性。”
它很实用,我每天都能看到它的用处。他说,通过笔记本电脑,他可以让机器人梳理头发,并让它为他准备零食。它还改善了亨利与孙女泰迪的关系,此前他们几乎没有互动。他甚至拥抱了她。
简说:“这和以前不一样,但泰迪和亨利用Stretch玩耍,参与了赛跑、保龄球和磁性钓鱼等游戏。”Stretch没有太多智能功能,它附带了一些预装软件,例如可以用来控制机器人的网络界面以及其他人工智能功能,例如导航。
Stretch的主要优势在于,人们可以插入自己的AI模型并进行实验。但它为实用家用机器人提供了一个很好的视角。
折叠衣服、做饭和清洁等任务,自20世纪50年代该领域诞生以来,一直是机器人研究的梦想。坎普说,很长一段时间以来,机器人技术充满了梦想,但加州大学伯克利分校的机器人学教授肯·戈德堡说,该领域正处于一个转折点。他说,以前努力制造实用家用机器人未能达到流行文化设定的期望。
想想《杰森一家》中的机器人。现在情况大不相同,得益于廉价的硬件(如Stretch),以及收集和共享数据以及生成式人工智能的进步,机器人变得比以往任何时候都更有效率和实用。戈德堡说,折叠衣服、做饭、擦拭服务和搬运购物篮等任务,现在都变得触手可及。
当今由人工智能驱动的机器人正在学习其前辈们认为极其困难的任务。机器人专家们有一个著名的观察结果:人类认为困难的事情,机器却很容易做到;而人类认为容易的事情,机器却很难做到。
这种被称为莫罗维茨悖论的现象,最早由卡内基梅隆大学机器人研究所的机器人专家汉斯·莫罗维茨于1980年提出。机器人可以玩转棋盘或长时间保持物体不动,但系鞋带、接球或进行对话则另当别论。戈德堡说,原因有三:
首先,机器人缺乏精确的控制和协调能力。其次,它们对周围世界的理解有限,因为它们依赖于摄像头等传感器来感知世界。第三,它们缺乏天生的物理常识。拿起锤子,除非你抓住锤子的重心部分,否则它很可能会从你的手中掉下来。
但你不知道,除非你了解锤子的工作原理。戈德堡说,除了这些基本考虑因素外,还有许多其他技术细节需要考虑。从摄像头到传感器和硬件,成本可能非常高。在机械方面,我们已经能够做到一些相当复杂的事情。
在1957年的一个视频中,两个大型机器人能够完成一些任务,例如点燃香烟、将其放在打字员的嘴里,然后重新涂抹口红。但那个机器人的智能和空间意识来自操作机器人的那个人。帕特克说,缺失的部分在于,我们如何让软件自动完成这些事情。
传统上,机器人训练方法是计划机器人执行的所有操作,并详细记录机器人的动作。波士顿动力公司在开发其双足机器人Atlas时采用了这种方法,其中使用计算机视觉摄像头识别场景中的物体。然后,研究人员使用这些数据创建模型,以极高的精度预测机器人采取特定动作会发生什么。
通过这些模型,机器人专家们可以为机器人制定一系列精确的动作指令。然后,工程师们在实验室多次测试这些动作,并不断调整,直到达到完美。这种方法有其局限性。
像这样严格编排的机器人,只能在一个特定的环境中工作,一旦将其从实验室带到陌生的环境中,它们很可能会失败。与计算机视觉等其他领域相比,机器人技术一直处于黑暗之中。帕特克说。
但由于人工智能的兴起,这种情况可能很快就会改变。他说,重点现在从展示机器人的物理灵巧性转移到构建通用机器人大脑(神经网络)上。
就像人类的大脑能够适应并控制人类身体的不同方面一样,这些网络也可以适应不同的机器人和不同的场景。这项工作的早期迹象显示出令人鼓舞的结果。长期以来,机器人研究一直是一个严苛的领域,进展缓慢。
帕特克在卡内基梅隆大学的机器人研究所工作。他说,过去曾有这样一种说法:如果你触摸一个机器人,你就会增加一年(T、L、P、H、D)。现在,他说,学生们接触到许多机器人,并在几周内看到结果。
这些新一代机器人的区别在于它们的软件。与传统的细致计划和训练不同,机器人专家们开始使用深度学习和神经网络来创建能够在运行中从环境中学习并根据其行为记录调整自身行为的系统。与此同时,新的廉价硬件,例如现成的组件和像Stretch这样的机器人,正在使这类实验更容易进行。
总的来说,研究人员使用人工智能训练机器人主要有两种流行的方法。帕特克一直在使用强化学习,这是一种允许系统通过反复试验来改进的AI技术,以使机器人能够适应新的环境。波士顿动力公司也在其名为Spot的机器人狗上使用了这种技术。
帕特克的团队使用这种方法创建了能够爬楼梯和穿越崎岖地形四足机器人狗。首先,他们在模拟器中训练机器人进行一般移动。然后,他们将机器人放置在现实世界中,使用单一摄像头和计算机视觉软件来跟踪它们。
其他类似的机器人依赖于严格规定的世界内部地图,无法超出这些地图。帕特克说,该团队的方法受到了人类导航的启发。人类通过眼睛接收关于周围世界的信息,这有助于他们本能地将一只脚放在另一只脚的前面。
他们以一种合适的方式四处走动。人类通常不会低头看着脚下,而是看着前方想要去的地方。帕特克的团队训练机器人采用类似的行走方式。
每个机器人都使用摄像头向前看。机器人无法记住足够长的时间来引导其脚的放置。机器人实时了解世界,并相应地调整其行为,而无需内部地图。
当时,专家们告诉麻省理工科技评论,这项技术在机器人学习和自主性方面取得了突破,并可能使研究人员能够构建能够在野外部署的机器人腿。帕特克的机器人狗团队已经取得了进一步的进展。他们最新的算法使机器人能够进行极端的公园行走。
机器人再次尝试在模拟器中进行一般移动,但使用强化学习,它能够在运行中学习新技能,例如如何跳跃很长的距离、用前腿行走和跳过两倍于自身高度的盒子。这些行为不是研究人员编程的。相反,机器人通过反复试验和前置摄像头的视觉输入学习。
帕特克说:“三年前,我根本不相信这是可能的。”另一种流行的技术称为模仿学习,该模型通过模仿人类操作员的操作(例如操作机器人或使用VR头戴设备收集数据)来执行任务。这种技术在几十年间时兴时衰,但最近在执行操作任务的机器人中变得更加流行。丰田研究所的机器人研究副总裁罗斯·赫克和麻省理工学院教授说。
通过将这种技术与生成式人工智能结合起来,丰田研究所、哥伦比亚大学和麻省理工学院的研究人员能够快速地教机器人执行许多新任务。他们相信他们找到了将生成式人工智能从文本、图像和视频领域扩展到机器人运动领域的途径。
其想法是从手动控制机器人的人开始,演示诸如搅拌鸡蛋或拿起盘子等行为。使用一种称为扩散策略的技术,机器人能够利用输入的数据来学习技能。
研究人员已经教机器人超过200项技能,例如剥蔬菜和倒液体,并表示他们正在努力到年底教机器人1000项技能。许多其他人也利用了生成式人工智能。Covariant是一家从OpenAI分拆出来的机器人初创公司,现在是Shuttle Robotics研究部门,它构建了一个名为RFM-1的多模态模型,可以接受文本、图像、视频、机器人指令或测量等形式的提示。
生成式人工智能使机器人能够理解指令并生成与这些任务相关的图像或视频。丰田研究所团队希望这最终能导致大型行为模型,类似于大型语言模型。赫克说。
人们认为行为克隆将为机器人带来类似于ChatGPT的时刻。今年早些时候,斯坦福大学的一个团队成功地使用一台相对廉价的现成机器人(成本32000美元)执行了复杂的操纵任务,例如烹饪虾和清洁污渍。它通过使用名为Mobile-Allow-HA的开源硬件和操作系统快速学习了这些新技能。
机器人通过仅使用20次人类演示和来自其他任务(例如撕纸或撕胶带)的数据来学习烹饪虾。斯坦福大学的研究人员发现,人工智能可以帮助机器人获得可转移的技能,在一种任务上的训练可以提高其在其他任务上的表现。所有这些都为能够在家庭中使用的机器人奠定了基础。
人类的需求会随着时间而变化,教机器人可靠地处理各种任务非常重要,因为它将帮助它们适应我们。这对于商业化也至关重要。第一代家用机器人将带有高昂的价格标签,机器人需要具备足够的实用技能,才能让普通消费者愿意投资。
长期以来,许多机器人研究人员都对这类方法持怀疑态度,斯坦福大学计算机科学与电气工程助理教授兼移动机器人顾问Chelsea Finn表示。Finn表示,几乎十年前,基于学习的方法在机器人会议上很少见,并且在机器人社区中分散开来。自然语言处理的兴起正在说服更多的人,这种方法确实非常强大。
她说。这里有一只猫。然而,为了模仿新的行为,人工智能模型需要二十个数据点。与可以通过从互联网上收集数十亿数据点来训练的聊天机器人不同,机器人需要专门为机器人创建的数据。
纽约大学计算机科学助理教授Laural Pinter表示,他们需要对如何打开洗衣机和冰箱、拿起盘子、折叠所有衣物等进行实际演示。目前,这些数据非常稀缺,人类收集这些数据需要很长时间。一些研究人员正在尝试使用现有的人类执行任务的视频来训练机器人,希望机器能够复制这些动作而无需实际演示。
Pinter的实验室还开发了一种简洁廉价的数据收集方法,将机器人动作与所需动作联系起来。研究人员拿了一根类似于拾取垃圾的伸缩杆,并在上面安装了一个iPhone。人类志愿者可以使用该系统拍摄自己做家务的视频。
Mimmo King描述了机器人平静的终结。利用这种伸缩杆、机器人平静和一个名为Doby的开源系统,Pinter团队能够让一个伸缩机器人仅用20分钟的iPhone数据就学会了诸如从杯子中倒水和打开淋浴帘等任务。但是,对于更复杂的任务,机器人将需要更多的数据和更多演示。
Pinter表示,要达到所需的规模,使用Doby会很困难,因为你基本上需要说服地球上每个人都购买伸缩杆系统,收集数据并将其上传到互联网。谷歌DeepMind启动的“开放式X赋能合作计划”旨在改变这一点。该公司与34位研究人员、实验室和大约150位研究人员合作,收集了来自22种不同机器人的数据,包括Hello、机器人伸缩杆等。结果数据集于2023年10月发布,其中包含机器人演示的527项技能,例如拾取、推动和移动。
参与该项目的计算机科学家Sergey Levine表示,该项目的目的是通过收集来自世界各地实验室的数据来创建机器人互联网。这将使研究人员能够访问更大、更可扩展和更多样化的数据集。导致当今生成式人工智能的深度学习革命始于2012年,当时出现了第一个大型在线图像数据集。
开放式X赋能合作计划是机器人社区尝试为机器人数据做类似事情的尝试。早期迹象表明,更多数据导致更聪明的机器人。研究人员构建了两个名为OnT、X的机器人模型版本。
这些模型可以本地运行在各个实验室的计算机上,也可以访问网络。更大的网络访问模型使用互联网数据进行再训练,以发展视觉常识或从大型语言和图像模型中获得对世界的基本理解。当研究人员在许多不同的机器人上运行OnT、X模型时,他们发现机器人能够比每个单独实验室开发的系统成功学习技能50%。
谷歌DeepMind机器人部门负责人Vincent van Hook表示:“我认为没有人预料到这一点。”突然之间,有一个途径可以利用所有这些其他数据来源来实现机器人领域的非常智能的行为。许多机器人专家认为,能够分析图像和语言数据的视觉语言模型可能为机器人提供关于周围世界如何运作的重要见解。
Van Hook表示,它们提供关于世界语义的线索,并可能帮助机器人进行推理。你是否看到过通过解释图像来学习事物?为了测试这一点,研究人员拿了一个经过大型模型训练的机器人,并要求它指向一张泰勒·斯威夫特的图片。
研究人员没有向机器人展示斯威夫特的图片,但它仍然能够识别这位流行歌手,因为它对她的身份有网络规模的理解,即使其数据集中没有她的照片,Van Hook说。Van Hook表示,谷歌DeepMind越来越多地使用类似于其用于机器翻译(例如英语到机器人语言)的技术。去年夏天,谷歌推出了一种名为R2的视觉语言动作模型。
该模型从其经过训练的在线文本和图像中获得对世界的总体理解,以及它在现实世界中的互动。它将这些数据转换为机器人动作。他补充说,每个机器人都有略微不同的方式将英语翻译成动作。
Van Hook表示:“我们越来越觉得机器人本质上是一个用机器人语言交流的聊天机器人。”尽管发展速度很快,但机器人仍然面临许多挑战,才能投入实际应用。它们仍然太昂贵,无法让普通消费者有理由花数千美元购买它们。
机器人还缺乏能够进行多任务处理的常识,并且需要从仅仅拾取和放置物品到将物品组合在一起(例如,将一副扑克牌或一盒棋盘游戏放回盒子里,然后放回游戏柜中),Goldberg说。但是,根据将人工智能整合到机器人中的早期结果判断,机器人专家并没有浪费时间,Pinter说。我相当有信心,我们将看到一些通用家用机器人的雏形,但它是否会对公众开放,还有待观察。
他说:“我不这么认为。”但在原始智能方面,我们现在已经看到一些迹象,构建下一代机器人可能不会像我们想象的那样困难。它们可能能够帮助人们完成日常家务,或者帮助像亨利·埃文斯这样的人过上更独立的生活。
对于像Pinter这样的研究人员来说,还有一个更大的目标。家用机器人为人类水平的机器智能提供了最好的基准之一。他说,人类能够在家庭环境中有效地运作,这意味着我们知道可以达到这种智能水平。
这是我们可以潜在地解决的问题。我们只是不知道如何解决它,他说。对于Jane Evans来说,一个巨大的胜利将是一个可靠运行的机器人。埃文斯实验过的伸缩机器人仍然过于难以在没有研究人员在场进行故障排除的情况下使用。
而且他们的家并不总是拥有可靠的WiFi连接,我们需要它才能使用笔记本电脑与伸缩机器人进行通信。即便如此,亨利说,他与机器人实验的最大好处之一是独立性。我只需要躺在床上,现在我可以做一些涉及操纵我物理环境的事情。
由于伸缩机器人,亨利在20年里第一次能够在比赛中独自玩扑克牌。他说:“好吧,我们不要说得太大了。”简说,并希望大家喜欢我们一直想要的机器人。梅丽莎·海基拉撰写,本文发表在2024年6月《麻省理工科技评论》上,并由...阅读。