We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode How Pokemon Go and augmented reality are transforming how we’ll navigate the world w/ Niantic's Brian McClendon

How Pokemon Go and augmented reality are transforming how we’ll navigate the world w/ Niantic's Brian McClendon

2025/1/21
logo of podcast The TED AI Show

The TED AI Show

AI Deep Dive AI Chapters Transcript
People
B
Bilal Volsadu
B
Brian McClendon
Topics
Bilal Volsadu: 即使是当今的数字地图也有局限性,它们无法像人类一样真正理解三维世界。而人工智能,特别是通过结合游戏和众包的方式,可以解决这个问题。我们可以教人工智能像我们一样看待和理解空间和地点,这将彻底改变我们导航和与物理世界互动的方式。 未来,我们导航的方式将不仅仅是通过手机,而是通过一个将数字信息完美地映射到我们所看到的每一栋建筑物、街道拐角和地标的世界,这不仅会重塑我们导航的方式,还会重塑我们与物理世界互动的方式。 Niantic公司正在利用Pokemon Go和Ingress玩家的数据构建更精细的地图,以实现更精确的定位。这是一种从下往上的地图构建方式,从人们常去的地点开始,利用Pokestop等游戏中的地点作为基础,构建高精度地图,弥补传统地图的不足。 Brian McClendon: 我在谷歌多年来开发了下一代3D地图技术,包括谷歌地图沉浸式视图和ARCore地理空间API,它们将世界变成了增强现实的三维画布。Keyhole公司(后来的谷歌地球)通过结合卫星图像、地图和地形数据,创造了一种新的世界可视化方式,这与谷歌的使命完全一致。谷歌收购Keyhole后,能够投入资金获取尽可能多的卫星图像,这极大地提升了地图的质量,并最终促成了谷歌地球和谷歌地图的诞生。 谷歌地球和地图改变了人们对访问和探索地点的思考方式,人们可以在出行前通过街景视图等功能预览目的地,从而更容易地旅行和探索世界。在谷歌之前,地图制作方式是人工实地考察和绘制,数据有限;谷歌通过街景视图和卫星图像等手段,构建了更完善的地图数据。地图数据需要持续更新,因为道路和本地商户等信息变化很快。 Niantic公司通过众包的方式,利用Pokemon Go和Ingress玩家的数据来构建更精细的地图,以实现更精确的定位。高斯散射和辐射场技术提高了地图的可读性和真实感,使得地图更易于理解和使用。高斯散射技术是一种新的三维数据可视化和重建方法,它可以更好地重建树木等复杂物体,提高了三维模型的真实感。Scannerverse应用允许用户快速创建3D模型,并将其添加到地图中,这有助于构建下一代三维地图。 空间理解是指物体在三维空间中的相对位置关系,计算机和人工智能系统难以理解复杂的户外空间。大型地理空间模型的目标是通过学习海量图像数据,来模拟人类对空间的理解能力,从而实现更精确的定位和三维重建。大型地理空间模型可以利用少量输入数据(例如单张照片)来更新和维护地图,这比传统的依靠大量传感器数据的方式更有效率。Pokemon Playgrounds功能允许玩家在地图上放置宝可梦,这使得玩家之间可以共享虚拟体验,并提高增强现实的真实感。 视觉定位系统(VPS)通过识别图像中的视觉特征来确定用户位置,而无地图的ACE0实现则利用神经网络来编码空间信息,从而提高定位精度。Ingress和Pokemon Go游戏的设计初衷是让人们一起探索世界,地图的构建是游戏改进的副产品。空间理解能力的提升将极大地改变增强现实和虚拟现实的应用,例如提供更精准的上下文建议、更逼真的场景重建等。大型地理空间模型可以与大型语言模型协同工作,提供更全面的上下文信息,并提高对环境的理解。 为了解决隐私问题,未来将会出现更多在设备端运行的AI模型,这些模型将根据用户的语言、地理位置等信息进行定制。短期内,三维地图市场将存在碎片化,但最终会走向整合,出现一个占据主导地位的提供商。未来的技术发展趋势之一是将更多功能转移到设备端,以提高隐私性和数据安全。

Deep Dive

Shownotes Transcript

有些东西你不会介意被困住,比如一大笔遗产。但一部必须以正确方式插入才能充电的手机并非如此。切换到Verizon,我们将通过预付万事达卡为您支付高达800美元的旧手机费用,用于购买一部新的手机。只需用我们精选的无限套餐兑换我们顶级品牌的任何手机即可。在精选的无限套餐中,使用新的智能手机线路购买需支付829.99美元。每月最低需支付90美元,并使用自动支付,外加税费,共计36个月。减去830美元的折价/促销积分。分36个月支付。适用以旧换新条款。偿还手机需要购买智能手机并在精选套餐中使用新的智能手机线路进行端口连接。

让我们提供最新的账单,显示符合条件手机的还款金额。适用其他条款。如果您戴眼镜,您就会知道找到一副完美的眼镜有多难。但是,走进Warby Parker商店,您就会发现并非如此。您不仅会找到大量镜框,还会遇到乐于助人的顾问和友好的验光师。是的,是的。许多Warby Parker门店还提供眼科检查。因此,下次您需要眼镜、太阳镜、隐形眼镜或新的处方时,您

所有?所有。

价值飙升。卡车上涨3.9%。这是一个很棒的报价。我知道。卖?卖。立即使用Carvana Value Tracker跟踪您的汽车价值。

嘿,我是Belaval。在我们开始节目之前,我想请您帮个小忙。如果您喜欢TED AI节目,请花一点时间在您的播客应用程序中评分并留下评论。您喜欢哪些剧集,您想听到更多关于哪些主题的讨论?您的反馈有助于我们塑造节目,以满足您的好奇心,邀请优秀的嘉宾,并为您提供最佳体验。还记得打印MapQuest路线吗?现在我们口袋里都有GPS了,那些纸质地图看起来已经过时了。

但即使是今天的数字地图也有一个主要的局限性。它们无法像人类那样真正理解三维世界。这就是人工智能的用武之地。如果我们可以教会人工智能像我们一样看待和理解空间和地点呢?而解决方案并非来自自动驾驶汽车或卫星图像公司。它来自数百万人在智能手机上玩一款备受喜爱的视频游戏。

很快,我们导航的方式将不仅仅是通过手机,而是一个数字信息完美映射到我们看到的每一栋建筑物、每一个街角和每一个地标的世界,这不仅会重塑我们导航的方式,还会重塑我们与物理世界互动的方式。我是Bilal Volsadu,这是TED AI节目,我们将在这里弄清楚如何在人工智能改变一切的世界中生活和茁壮成长。

有些东西你不会介意被困住,比如一大笔遗产。但一部必须以正确方式插入才能充电的手机并非如此。切换到Verizon,我们将通过预付万事达卡为您支付高达800美元的旧手机费用,用于购买一部新的手机。只需用我们精选的无限套餐兑换我们顶级品牌的任何手机即可。在精选的无限套餐中,使用新的智能手机线路购买需支付829.99美元。每月最低需支付90美元,并使用自动支付,外加税费,共计36个月。加上830美元的以旧换新/促销积分,分36个月支付。适用以旧换新条款。偿还手机需要购买智能手机并在精选套餐中使用新的智能手机线路进行端口连接。

让我们提供最新的账单,显示符合条件手机的还款金额。适用其他条款。本播客由eHarmony提供赞助,这是一个约会应用程序,可以帮助您找到一个可以做自己的伴侣。是什么让eHarmony如此特别?你。不,真的。eHarmony上的个人资料和对话有所不同,这就是它如此优秀的原因。

eHarmony的兼容性测试会在您的个人资料中展现每个人的个性,并在您的发现页面上突出相似之处。因此,开始真正有意义的对话就更容易了。那么,您还在等什么呢?在eHarmony上找到懂你的人。立即注册。阿拉斯加今天很冷,但有一种动物似乎不受影响。明亮的眼睛和坚定的眼神,哈士奇出现了。观察它们如何凭借纯粹的本能登上山峰。

我在谷歌工作多年,开发了下一代3D地图技术,包括谷歌地图沉浸式视图和ARCore地理空间API,它将世界变成了增强现实的3D画布。

而这些创新是建立在我们今天的嘉宾几十年前就预见到的未来基础之上的。Brian McClendon共同创立了Keyhole(后更名为谷歌地球),并领导了创建谷歌地图和街景的团队,这些工具改变了数十亿人探索世界的方式。现在,在Niantic公司(Pokemon Go和其他将数字体验与物理世界融合的游戏的幕后公司),他正在构建比这更令人惊叹的东西。

是的,这涉及到数百万Pokemon Go玩家。Brian在预测和构建我们与世界互动方式的未来方面一直走在前沿。因此,今天,我们将深入探讨他对地图未来的愿景。准备好探索一个世界,在这个世界中,地图不再仅仅是用于从A点到B点的工具,而是通往全新现实的桥梁,它将我们与周围的世界更紧密地联系在一起。

所以你从小长大的堪萨斯州劳伦斯公寓现在是谷歌地球的默认位置。是什么让你一开始就对地理空间技术和地图绘制感兴趣的呢?当我在劳伦斯的时候,我开始使用Atari 400电脑,你知道的,那是在视频游戏机真正流行之前很久的事了。我编写了程序,并对CG感到兴奋。

当然,当我开始的时候,也就是80年代初期,电子游戏非常流行。所以我获得了计算机和3D图形方面的学位,并在接下来的10年里为Intergraph工作站和Silicon Graphics构建3D图形。让我们快进一点。现在是2004年,谷歌收购了你共同创立的公司Keyhole Inc. 谈谈谷歌对你在那里创造的技术感到兴奋的原因,以及它变成了什么?

嗯,当他们关注我们时,我们已经公开运营了大约三年,并且我们拥有这款在个人电脑上运行的地球浏览器应用程序。我们将卫星与地图和地形数据相结合,创造了一种新的可视化世界的方式。

而且,你知道,谷歌的使命是组织全球信息,并使其普遍易于访问和使用。我们开发的这款产品完全符合他们的使命和愿景。因此,当他们看到它并坐下来开始使用它时,他们非常兴奋。

我听说任何人在第一次接触EarthViewer时做的第一件事基本上就是输入他们的家庭住址,然后看到摄像头缩放到那里。完全正确。这实际上是对产品是否有效的一种测试,因为测试方法是去你熟悉的地方,如果它正确地反映了你所知道的东西,那么你就会开始探索世界的其他地方,因为现在你很兴奋它与你对世界的看法相符。

但是,如果我们没有他们国家或他们郊区或农村城镇的高分辨率图像,他们会感到失望。因此,我们在Keyhole的目标是获得尽可能多的我们可以负担得起的图像

但是谷歌收购我们后,你知道,这样做的一个主要论点是,他们愿意花钱来获得尽可能多的卫星图像,而我们能够处理这些图像。当然,这项技术变成了谷歌地球,其中很多也进入了谷歌地图。你能简要谈谈你在谷歌的工作以及你在地理团队中领导的工程工作吗?

当我们在2004年加入谷歌时,我们拥有Keyhole产品,但我们也坐在另一个小型收购公司旁边,该公司正在开发基于地图的产品。最初,该基于地图的产品也是基于PC的,但他们很快转向开始开发基于JavaScript的网络地图查看器。他们构建了谷歌地图并与我们合作。作为其中的一部分,他们构建了这个非常快速的应用程序

JavaScript、Ajax引擎,第一种类似于,你知道的,客户端JavaScript的情况。然后他们将每个地图瓦片预渲染到服务器。这意味着从速度的角度来看,谷歌地图在第一天就比任何人都快,因为MapQuest需要20秒才能渲染一个很小的地图瓦片。而谷歌地图基本上能够以你的网络速度调出它。他们可以平移,可以缩放。

这非常令人兴奋。但我们随后做了一件更大规模的事情,那就是在不久之后将我们从Keyhole获得的卫星图像添加到谷歌地图中。立即,谷歌地图用户获得了我们在Keyhole看到的以及我们在谷歌地球上看到的相同体验,那就是,他们能看到他们的房子吗?对许多人来说,这是他们第一次接触卫星图像。是的。

是的,它就像从抽象地图中获得从A点到B点的最佳方式,但也像现实世界的最佳逼真呈现。我无法夸大现在人们认为这很容易获得的程度。但正如你所说,那时人们实际上是从MapQuest打印路线来从A点到B点移动。谷歌地图和地球出现了。当然,接下来你就会知道,这东西也在iPhone上了。

是的,移动电话,你知道的,在我们被收购的时候,没有我们谈论过的这种能力,但它们只是,你知道的,屏幕空间、CPU和网络都不够好。但iPhone在2007年发布,Android在2008年发布,突然之间屏幕空间有了。我们终于有了足够的网络带宽。

而且,你知道的,里面有一个足够好的图形芯片,我们能够在2007年,我认为是在2007年发布时,在iPhone上运行谷歌地图。然后我们后来能够在iPhone和Android上运行谷歌地球。太棒了。我必须问你,作为谷歌地球和地图的结果,你看到世界上有哪些最大的变化?

我认为人们对参观和探索某个地方的想法发生了巨大的变化。过去,你会阅读关于某个地方的指南,你会与人们交谈并获得推荐。现在,在许多情况下,你实际上可以去那个地方。你可以去街景。你可以查看位置。你可以看到你的酒店在哪里,看到海滩在哪里,看到去海滩要走多远。

我认为在你去之前对那里的预览使人们更容易旅行和探索世界。这实际上,我认为,你知道的,目标之一是,我们希望让世界更容易获得,无论是在电脑屏幕上虚拟地,还是通过打开它,让人们真正走出去体验它。

我喜欢它。这是对与我内心深处非常接近的事情的完美过渡,我在谷歌地图工作过,在您创建的基础上构建了下一代3D地图。所以我想谈谈地图制作方式的变化。对于那些不了解的人来说,谷歌或苹果制作地图的方式,你用昂贵的卫星图像暗示了这一点,就像使用卫星、航空和地面传感器对现实世界进行捕捉一样。它们是

这些就像对世界进行超级结构化和半频繁的捕捉。但现在在Niantic,你正在尝试以不同的方式构建不同类型的地图。请告诉我们更多关于这方面的信息。

好吧,要把它追溯到历史,在谷歌之前,人们制作地图的方式是,他们会真的开着货车四处行驶,做笔记和画图,他们只会访问最受欢迎或最重要的城市地区。因此,谷歌在2005年授权的地图数据是当时最好的,但并不完美。它基于政府数据,以及像Navtech和Taliatlas这样的公司投入的尽可能多的工作。

但在谷歌,我们意识到地图不够好,你知道的,我们诚实地意识到这一点,因为我们加入了街景,因为你做的第一件事是,你知道的,人们查看街景图片,他们看到一个交叉路口的照片,然后他们查看我们的地图数据,它是错误的。他们说,怎么会这样?你给我们的图片显然是正确的。

我们启动的这个项目被称为“地面实况”,原因正是如此。我们自己制作地图。我们从政府数据开始,但我们拥有街景和卫星图像以及大量辛勤工作的强大力量,开始制作地图。我们推出了

2009年在美国、墨西哥和加拿大推出,并在接下来的五年里继续进行,直到我们基本上绘制了世界上所有较大的国家或世界上较大的GDP国家的地图,并使用用户生成的内容来绘制其余国家的地图。在某种程度上,这就是为什么谷歌地图比许多其他提供商更好的原因,因为我们能够使用这些数据来制作更好的地图。

现在,任何地图的问题在于事物会发生变化。因此,即使你在某个时间点上是完美的,它也会立即开始过时。我的经验法则是,道路变化很快。

每年1%到2%,而当地企业每年变化10%到20%,因为当地企业有很多周转。而人们搜索的最重要的事情是,我要去哪里?我去哪家餐馆?我在哪里干洗衣服等等?这些数据会发生变化。因此,保持地图的最新状态是一个非常大的挑战。你需要

地面人员,你需要新的数据,你还需要信号,你知道的,事情是好是坏。我认为谷歌在基本数据方面做得很好。但是,你知道的,在Niantic所采用的水平上,它大不相同。我们非常在地面上收集图像,其细节程度甚至超过了谷歌收集的图像。

那里的挑战是,你越仔细观察世界,变化就越多。因此,如果你试图将细节降低到长椅、公园和椅子级别,那么保持地图的准确性就更加困难。为什么我们需要这种地图?为什么采用你正在使用的这种众包方式来构建它?Niantic意识到的一件事是

要构建一个准确的定位系统,要知道某人身在何处,你需要的数据远远超出街道地图。如果你想知道你相对于雕像、公园甚至人行道的确切位置,你需要一种谷歌地图今天根本没有的细节级别。因此,构建这个高精度定位系统,我们称之为视觉定位系统,

需要这种高分辨率数据。Pokemon Go于2016年推出。它是第一款AR游戏。Pokemon Go启用了增强现实。你可以在特定位置拍摄宝可梦的照片。我们让Pokemon Go玩家和Ingress玩家实际上主动选择扫描我们的Pokestops,开始为我们构建这张地图。

这些数据已经被整合在一起。我们用它创建了一个VPS系统。现在,当你将手机指向某个地方时,我们确切地知道你站在哪里。- 如果你需要复习一下,Pokemon Go是一款适用于智能手机的增强现实游戏,它在2016年席卷全球。一夜之间,感觉每个人都在四处游荡,盯着他们的智能手机摄像头,寻找虚拟宝可梦来捕捉。公园、街道甚至停车场都变成了冒险的热点。

在Pokemon Go之前,Niantic创建了Ingress,这是一款更具科幻色彩的游戏。玩家不是捕捉生物,而是分成两个派系,争夺现实世界地点的控制权,将它们连接起来以宣称领土。你谈到的这一点也很有趣,作为谷歌的补充地图,

谷歌、苹果和其他公司正在做的事情,往往是世界上的可驾驶区域,也许还有一些可穿越、可步行区域。但是地图的很多部分,特别是正如你提到的,像公园和其他人们聚集的地方,这些地方从未以这种细节级别绘制过地图。而你能够做到这一点。所以这几乎与主流地图提供商所做的事情相反。因此,您可以启用这种世界锚定的AR体验。

而这本身就是很酷的技术,因为你是完全正确的。你谈到了视觉定位系统。你知道,GPS不够好。如果你有5米,然后是30度的旋转精度,那么你放置在虚拟世界中的东西很少会与实际需要存在的东西对齐。但是你可以用你们正在构建的VPS地图实现更高的精度。对吗?

没错。我们思考这个问题的方式是,你和我都在谷歌上使用的先前方法,你知道的,是从上往下构建地图,对吧?我们从卫星图像开始,这启发我们随后使用街景等等。Niantic是从下往上构建地图,你知道的,从人们花费时间的地方开始。我们有这个优势,你知道的,我们现在已经有了相当多的精选列表,你知道的,Pokemon Go已经进行了八年,如果你遇到Ingress,实际上已经进行了10或11年,你

2000万个Pokestop,2000万个路标,我们称之为,它们是人们聚集的点,是步行的地标,并且,你知道的,位于你谈论的那些区域。它们在公园里,它们四处移动,但它们不是官方的商业或街道标志所在地。因此,这些点,你知道的,在游戏中扮演着核心角色,但也为我们创建这张地图提供了基础,这些是我们将从中构建的小岛。

我喜欢这个。是的,这必须是一些非常有趣的数据,就像,在社区层面,哪些兴趣点对用户有吸引力?就像在我的社区一样,像德克萨斯州日落谷这样的地标,人们关心的是什么,这与传统地图提供商的呈现或解释可能大相径庭。但你说的有些东西很有趣,那就是,

你正在谈论视觉定位系统,我认为这就像机器可读地图,这是一张机器可以查看的地图。它会将你的照片与现有地图进行比较,并计算出,啊,你正位于地球上的这个位置。

但我们也看到人类可读地图的提升。所以不仅仅是如何捕捉地图,而是我们可以用地图做什么。你能向我们的听众解释一下为什么这种转变很重要吗?你知道的,他们可能不像你我一样是计算机图形极客。我在这里特别谈论的是高斯散射和辐射场。

它的工作原理如下。首先,你从不同的角度拍摄大量该地点的普通照片。然后,系统会创建本质上是一组特殊的3D点云,称为高斯点。把它们想象成这些复杂的携带光线的泡泡。每个泡泡不仅知道它的颜色值,还知道当你从不同的方向观察它时颜色是如何变化的。就像当你绕着一辆车走动时,汽车的油漆在阳光下可能会发生变化一样。

它的特别之处在于它的运行速度非常快。你可以像玩电子游戏一样以每秒100帧的速度四处缩放,同时看起来仍然非常逼真。这尤其令人兴奋,因为这意味着我们越来越接近于轻松捕捉和共享真实地点的完美3D复制品,任何人都可以在他们的手机、电脑甚至VR耳机上探索这些复制品。

长期以来,使用卫星图像构建世界视觉地图是一种自上而下的二维像素阵列情况。但谷歌和其他公司开始使用倾斜数据收集航空图像,并开始从中制作3D建筑物。3D重建允许对世界进行相当好的3D建模。但如果你想看到痛苦,你只需要看看树木。

树木是一个非常困难的可视化和重建问题。每当你放大从谷歌或苹果看到的任何这些数据时,树木都是最糟糕的部分。西兰花树。西兰花树。有很多很好的理由。首先,它们在每张图片之间移动,所以它们两次都不是同一件事。它们生长,叶子掉落,并且它们有大量的细节,因为它们本身实际上是分形的。

因此,再现树木非常困难。我们去年在SIGGRAPH上发表的关于高斯散射的论文中发现,这是一种可视化和重建3D数据的新方法。它所做的是保留

不仅是事物的特定点位置,还有来自各个角度的光照条件。因此,它实现了远远超出多边形重建所能达到的可视化逼真度。特别是对于高斯散射的透明性可能性,

树木看起来非常非常逼真。如果你观察它们,它们看起来很逼真。你可以透过它们看到,而且它们很稳定。增加的逼真度让我们克服了我认为许多以前的3D重建所具有的诡异谷,因为它们并不真正可信。看起来不对劲。

这有点像从,我不知道,GTA 2或3的图形突然变成GTA 7,就像我们所取得的飞跃一样。没错。而且,你知道的,城市峡谷是一个有趣的问题,因为许多城市峡谷都在街道层面种植了树木。而这些树木实际上会遮挡店面,并使之难以……

你知道的,如果你不能很好地再现它们,那么它很难给你关于地面上这个地方看起来像什么的真实视觉线索。因此,即使是城市峡谷也从这种新的重建中受益匪浅。

完全正确。我的意思是,我记得几年前玩过辐射场的先前实例,神经辐射场。我当时想,我需要这个强大的GPU,或者我需要去求谷歌的某个人提供一些TPU来处理这些数据集。这需要几个小时。然后我们在今年年初有机会在Niantic总部见面。我被你们用你们的应用程序Scannerverse所做的事情震惊了,它基本上是在你口袋里的手机上实时进行3D高斯散射。是的。

现在你可以将这些东西带到地图上。所以告诉我一些关于Scannerverse和你在那里的愿景的信息。是的,我们在2021年以其原始形式收购了Scannerverse。而且,你知道的,它是用于,你知道的,老式摄影测量法的杰出的3D重建,并产生人们在许多不同应用程序中使用的非常好的模型。

但在2024年初,我们在Scanaverse的输出中添加了高斯散射。要使用它,你可以使用iPhone或Android。你不需要LiDAR。你只需要将手机移动到物体周围,并从高低角度获取它。它能够非常非常快速地重建物体、场景或房间。尤其是在iPhone上,它可以在大约一分钟内构建你的高斯散射。

这样做有很多好处。首先,你知道的,你会得到快速的反馈。所以就像拍立得一样,如果你不喜欢它,你可以在一分钟内在同一个位置再拍一张照片。所以这是一个很大的优势。另一个是隐私。除非你选择发送出去,否则这些数据不会离开你的手机。所以你可以构建你的模型。你可以决定你是否喜欢它。你可以决定与谁分享它。实际上,它会保留在你的设备上,直到你上传它。

我们最近添加了将它添加到我们地图中的功能。因此,现在Scannerverse地图允许你四处走动,查看其他人上传的所有其他扫描,包括我们从Pokemon Go和Ingress扫描中构建的扫描。因此,这张地图……

是我们下一代3D重建地图的开始。啊,这张下一代地图的种子地图。你是否对这样一个事实感到兴奋,即现在我们有了像3D高斯散射这样的输出,人们有一种独立的方式来捕捉这些东西,而不是,比如说,让它成为Pokemon Go或Ingress体验的一部分?你是如何看待这个问题的?好吧,我认为当我们只是构建VPS时,我认为我们一直在努力解决你前面提到的一个问题,叫做不可见地图。

对。它是一张不可见的地图,它非常重要,并且提供了巨大的价值,但人们无法理解,它在这里有效吗?它有效吗?它是如何工作的?高斯散射的优势在于,我们用来构建VPS的相同数据也可以用来使用高斯散射。现在我们可以将其可视化。

我们在这里有数据。你可以看到它。是的,你也可以在这个特定位置定位自己。因此,你可以根据你想要的方式,拥有AR体验或VR体验。我们已经构建了产品,允许你在网络或你想要的任何设备上开发这两种体验。

这真的很令人兴奋,因为是的,你是完全正确的。如果你,你知道的,你是Pokemon Go的利他主义用户,你非常喜欢这款游戏,并且你想解锁你城市一部分的某些体验,那么坐在那里扫描以创建你所说的不可见地图是一回事。完全不同的是,你可以带走这个本身就很有用的工件。就像,

这就像那个地方的3D复制品,对吧?这就像我一直在描述的,像是记忆捕捉。你捕捉一个空间或地方一次,然后你就可以无限地重新构建它。就像你说的,甚至可以解锁VR体验。所以我们现在掌握这项技术,拥有了这两枚硬币的一半,这很酷。

是的,我们经历了许多不同的阶段,绘画、照片、立体图像、视频。我认为这是一种新的快速3D捕捉形式,它保持了一种平衡

比任何单张照片都能更好地、更完整地展现一个地方的感觉。因为,你知道,如果你戴上耳机进入其中,或者你在屏幕上查看它,无论你的电脑还是手机,你都会对这个地方有更好的了解。因此,任何人都可以收集这些内容,分享这些内容,发布这些内容,我认为这是一种强大的功能。这让我们想到了你们最近发布的一个新公告,大型地理空间模型或LGM。

在我们深入探讨之前,你能向我们的听众解释一下什么是空间理解,以及为什么计算机甚至人工智能系统在今天难以处理这些问题吗?空间理解是以最简单的形式解释三维物体彼此之间如何相对存在。如果你在一个房间里,你的椅子是如何放在你的桌子旁边的?谁在前面,谁在后面?这些是一些常见的问题,你知道,世界各地许多办公室的许多人都遇到过。

你可以想象训练一个模型,它几乎理解所有办公室的配置,并且对这意味着什么有一个很好的了解。

一旦你走到户外,你会发现世界要复杂得多,而且在不同地区的变化也大得多。我喜欢用一个例子来思考这个问题,那就是对于那些玩过GeoGuessr游戏的听众来说,这是一个你查看街景中的图片并猜测这张图片来自地图上哪个位置的情况。令人着迷的是,这些图片有多么不同,以及单张图片中包含了多少信息

包含了你真正所在位置的信息。但是差异要么非常明显,要么非常细微。有一个名叫Gio Rainbolt的玩家,他在这方面非常出色。我喜欢把他想象成在他大脑中建立一个神经网络,通过学习成千上万甚至数百万张这样的图片,他现在或有意识地或无意识地知道这些图片产生的信号。

我认为我们所说的大型地理空间模型就是通过提供数十亿张照片而不是数百万张照片来复制这个神经网络。

如果我们能做到这一点,那么这个地理空间模型可能就有了足够的理解能力来定位你,视觉上定位你,3D重建你无法看到的场景部分,因为它已经看到了足够的教堂正面来预测教堂背面是什么样子。所以它……

机会很大,但所需的数据集和模型必须具备的理解能力非常非常大。事实上,这就是我们正在努力的方向。

我喜欢这个。听起来你暗示拥有1000万次扫描,也就是这些遍布全球的种子位置。基本上,变化在于我们拥有这些空间理解的岛屿,这些个体地图可以让你准确地找出用户的位置。但现在你们正在努力将它们融合在一起。我认为你给了一个很好的例子来说明这种融合是如何工作的。我们可以更深入地探讨一下吗?

为什么这种构建这种类型地图的方法比其他人的方法更好呢?世界的一个系统性覆盖,其中一个挑战是,为了保持它的最新状态,你必须一直重新访问所有内容,或者对访问那些一直在变化的内容有一个非常智能的模型。而且。

如果你要访问它,你必须发送一个传感器,一辆街景车,或者一辆Waymo汽车去收集数据,从空中飞过飞机。这些都是重量级的活动,相对来说不容易重复,或者不能提供高覆盖率。

如果我们能够达到单张照片就能提供足够信息来判断世界是否发生变化,以及如果发生变化,是如何变化的地步,那么你就有机会从非常小的输入中更新和维护世界地图,偶尔单张图片。

系统的其余部分可以检测到,是的,这与之前不同。然后我们可以推断出围绕这张照片的其他变化。所以我认为这是一个构建更好、更新更频繁、更准确地图的机会。这就像你正在构建一个不仅能够适应变化的地图,因为显然,正如你所说,世界以不同的速度变化。

但它实际上并不需要你用这些非常非常昂贵的传感器系统来绘制它的每一寸土地。我很好奇,随着你们创建这种新型地图,你如何看待Pokemon Go等游戏以及Niantic正在开发的其他产品的体验会如何发展?

好吧,我们就在上周推出了一个名为Pokemon Playgrounds的功能,它能够在Pokestop路标位置在地图上放置宝可梦,并将它们精确地放置在那里,以便下一个用户可以看到它们或将自己的宝可梦添加到收藏中。所以我实际上建立了一个小小的宝可梦收藏,允许一种共享的虚拟体验,并且

增强现实的一大挑战是可信度因素。如果每个人看到的都是不同的世界,你就不能把它说成是一个真实的世界。这只是你的视野,你在产生幻觉。但如果我们同时在同一地点看到相同的东西,那么它就是一个共享的体验。你真正增强的是世界,而不是你自己。

这就像从放置图钉并与某人分享的下一个层次。你有点像在注释这个世界的3D地图。然后任何来到那个位置的人,无论他们当时是否在那里,我想在这种情况下,即使他们事后到来,他们也能看到你留下的完全相同的注释。所以这里面有很多艰苦的工程工作。你一直在谈论这个术语“定位”。让我们来解释一下,并谈谈你们正在投资的旧的定位方式和新的定位方式。

听起来不错。所以我们称之为视觉定位系统,这是一个非常清晰的名称。它是视觉的。你看到什么就是什么。过去的做法是收集大量数据。你试图建立一个关于容易视觉区分的事物的特征的点云。

它们在世界上的位置是固定的。所以当你看到它们时,就像一个星场,它们都处于特定的位置。这有助于你找到你的位置,因为你看到这些单个特征以特定的方向排列。这就是过去一直以来的工作方式。而这就是对世界进行点云地图绘制的方式。

然而,通过我们的无地图ACE0实现,我们做了一些不同的事情。我们为每个场景,用我们的Pokemon Go和Ingress玩家提供的视频扫描来训练一个神经网络模型,我们建立了一个具有相同能力的神经网络,但它将空间编码到这个网络中。现在当我们将一张图片发送到这个网络时,就像你现在将照片上传到大型语言模型一样,

它会进行处理,并能准确地告诉你你站在哪里,而且比我们之前只使用这种视觉点云的算法更准确。所以我们称之为ACE0,它教会了我们很多关于如何利用这些视频扫描并将它们转换成一个合理大小的神经网络,该网络编码了关于位置的所有信息。

所以这有点疯狂。所以,与其让图像进入,提取一些特征,试图将其与你离线创建的3D模型进行匹配,不如你将这张图像提供给一个神经网络,然后你就会得到这样的结果:“嘿,这就是你的位置”。

就像回到GeoGuessr的例子一样,也许神经网络在某种程度上能够更好地定位用户或找出他们在3D空间中的位置,而不仅仅是依赖于这些不会随着时间推移而改变的静态特征。没错。它似乎更稳定。

正如我们所说,世界一直在变化。我会说,回到我们关于定位的树木问题,从树上掉下来的叶子落在水泥地上,变成了实际上使我们的点云解决方案效果不佳的视觉特征。但神经网络对这种情况更稳健。这是一个克服变化并找到核心静态解决方案的例子。

真正的、坚实的地面来进行定位。我认为这有助于我们随着时间的推移提高准确性。

这是一个很好的观点。是的,树木,如果你从树木中提取特征,它们肯定会随着季节而变化,如果要进行定位,它们可能不是最稳定的锚点。但是你有一个想法,即某种人工智能能够弄清楚如何做到世界上最好的GeoGuessr玩家所做的事情,因为我也看过一些那些视频。你是完全正确的。这几乎就像这个人是一个人类VPS,这是一种非常奇怪的事情。

我只能想象,当你开始获取这些大型扫描数据集并将它们放在一起时,会发生什么,看看你是否可以创造出比最好的GeoGuessr玩家更好的东西。我的意思是,这当然是我们希望在某个时候达到的一个目标。而且我们有一个,实际上是一个完整的游戏和一整套竞争对手,他们都在这个领域。他们都使用不同的技术。他们每个人的神经网络都略有不同,有些擅长某些方面,而另一些则擅长其他方面。但是

我认为观察他们如何玩游戏以及他们如何思考这个问题是有益的,因为,你知道,如果你看过Rainbolt玩游戏,他会谈论他如何,你知道,他看到的一些信号以及他为什么做出一些他做出的决定。但是有些,他无法解释。你知道,他的大脑只是去了那里。那是因为,你知道,他的神经网络也做得很好。

与之相关的是,我知道很多人心中都有一个问题,那就是当你们开发Ingress和Pokemon Go时,游戏和产品体验的设计理念在多大程度上是既有趣又利于构建这种世界地图?

我会说,游戏和游戏设计几乎完全专注于让人们一起探索世界。这是Niantic的使命宣言。所以我认为对位置的关注实际上是关于如何让人们走到户外,如何锻炼身体以及如何一起玩游戏。我会说游戏本身并不是为了构建这张地图。地图变成了……

后续的副作用,使游戏变得更好。一旦我们开始想知道某人的确切位置,以决定他们是否可以旋转Pokestop,我们意识到,在GPS被拒绝或GPS城市峡谷中找出你的位置非常困难。所以如果还有另一种更好的方法来解决这个问题,你知道,我们能不能创造出来?这可能是Niantic开发VPS的起源。

是的,这就像一种手段而不是目的本身。是的,你刚才提到了GPS被拒绝。这是另一个很好的例子,说明你需要视觉定位,因为是的,当你被高大的金属建筑包围时,你的GPS信号会在你周围反弹,这些建筑会反射到达你的GPS信号。我认为这是

每个人都能理解,沿着一条街走一个方向,然后意识到他们实际上正朝着他们原本打算去的相反方向走。显然,当你使用视觉定位时,这个问题不存在。没错。

因此,为了使其成为一种手段而不是目的本身,让我们谈谈为什么这会如此改变游戏规则?例如,这为增强现实和虚拟现实带来了哪些可能性?感觉我们已经看到了下一个计算平台的实例化,而这些设备正变得越来越真实。一旦机器掌握了空间理解,我们还能做什么?

我的意思是,我认为如果你现在看看大型语言模型的重点,很多都是围绕着提供帮助。你向他们解释你的问题,他们会给你建议。在一些公司对世界的看法中,目标是你可以问他们一个问题,他们会利用问题的上下文,但他们会利用他们对你了解的所有其他上下文。

以及他们可以获得的任何其他上下文。我认为即使是相机本身也没有的重要上下文信息是,我确切地在哪里以及我周围有什么?现在,相机可以看到我可以看到的东西或它指向的地方,

但它不知道故事的其余部分。它不知道我身后有什么。它不知道那堵墙后面有什么。可以向助手提供更多上下文信息,助手可以将其信息包含在其建议中。所以我认为上下文建议是一个重要的应用。

构建对短期导航、回答有关设施或安全问题的无法看到的场所的视图。这些东西是可以推导出来的或可以从

一个更大的模型中知道,该模型可以识别问题的系统性示例。因为所有的人类,街道、街角和人行道在世界许多地方都是相似的。如果这里有一条人行道,这条人行道就会继续延伸,这是一个很好的猜测。

你能用这些信息做什么?你如何将其可视化?你如何告诉用户?我认为这些模型将能够回答这些问题,而无需持续输入,无需被迫始终开启视频。你所说的非常有趣,对吧?因为你是完全正确的。当这些大型语言模型运行时,它们会像你所说的那样,利用它们至少在互联网上的公共内容上看到的世界知识。

好的,这很酷。基本上,这项技术使你能够搜索你看到的东西,以及你无法看到的东西。你可以开始问各种令人惊奇的问题,例如,“这些酒店房间中哪一个可以看到海景或城市景观?”“这个房间能照射多少阳光?”或者调出你正在查看的这家餐馆的评论。当然,鉴于Niantic自身的关注点,你可以从字面上为游戏应用程序重新设计世界。天空才是真正的极限。

但同样很酷的是,这些模型如何与大型语言模型协同工作。你们试图为现实世界做同样的事情,对吧?我很好奇,你如何看待这些大型地理空间模型与这些大型语言模型协同工作?例如,你提到了不需要一直开启摄像头。我的意思是,这涉及到人们对眼镜的隐私问题,对吧?这就像,“我真的想在我的脸上安装摄像头吗?”它是LiDAR吗?所以它不是,你不能确切地看到它是什么,但你可以看到它的结构

但似乎在你们正在构建的东西和其他公司正在构建的东西之间可能存在某种神圣的结合,特别是考虑到它们现在可以理解视觉输入甚至音频输入。

是的,我认为我们将看到的一件事是,大型语言模型、我们谈论的大型地理空间模型、图像生成,目前这些都倾向于基于云,对吧?它们倾向于存在于云中的大型模型。它们运行得很好。OpenAI是一家很好的公司,可以为你提供服务,但这意味着你正在将你的数据发送给他们。而且,你知道,我认为确实存在一个隐私问题,这个问题将通过使这些模型足够小以至于可以在你的设备上运行来解决,并且真正地

大多数进入它们的内容都保留在设备上。一个经过高度训练的模型,调整到,比如说,你的语言、你的地理位置、你的位置,可能会更小,因为我们知道你在

堪萨斯城,或者我们知道你讲英语,或者我们知道相关的视觉内容将基于体育,因为你走进了一个足球场,并且查询了该模型的足球摘要版本。所以,你知道,我认为在设备上和云端之间将存在一种微妙的平衡,但是将这些小型模型组合在一起,并且

这样你就可以将它们带到你的手机上,并在无需将这些答案发送回云端的情况下回答问题。这直观地是有道理的,对吧?就像如果你考虑一下,我不知道,像纽约的一位出租车司机在他的脑海中有一张纽约地图。他们不需要不断地参考谷歌地图。或者我用来进行视觉定位的另一个比喻是Shazam。就像Android版本的Shazam可以自动识别正在播放的歌曲。

无需将音频发送到云端,你的设备只知道所有这些不同歌曲的特征,你只需在本地进行操作。然后,就像你说的,对于某些体验,当你需要将其发送时,你可以发送,或者派生其他见解。现在感觉很多神奇的事情都发生在云端,我想,因为这很容易管理、构建和服务。但是是的,像

随着这些东西进入野外,为什么要发送照片或视频流来确定我的位置?我很期待。你认为这还有多远?我的意思是,对于特定问题,它已经存在了。我们已经看到,就像在大型语言模型世界中,我们已经看到70B模型训练3B模型来训练一个1B模型,该模型非常擅长执行这项特定任务。一个1B模型可以放在你的手机上并且性能良好,甚至不会消耗很多电量。

我认为随着时间的推移,其他模型也将如此。而且,你知道,它们可以以许多不同的方式进行切片和切块。例如,它们可以根据任务进行定制。它们可以根据地理位置进行定制。就像我说的,它们可以根据语言进行定制。所以一旦你知道你真正想要解决的问题的子集,就可以下载模型,并且

之后,所有内容都在设备上。从隐私的角度来看,这是我非常兴奋的事情。这很神奇,对吧?是的,你已经有了,我一直在玩新的苹果智能。它有一堆这些在设备上运行的重写模型。也许你有一些未来实例化的精简大型地理空间模型,它知道如何在城市中找到自己的路。所以我只需指向我的相机,就可以得到关于我正在查看的内容的答案。

然后回到你之前关于“X射线视觉”的观点,就像建筑物后面甚至是什么,所有这些数据都不会离开设备。这太酷了。在Verizon,任何人都可以用Unlimited Ultimate计划用旧手机换取新手机,这意味着你的家人中的每个人都可以获得一部新手机,并留在你的家庭计划中,让你保持联系。嘿,妈妈,你看到我的牙刷了吗?哦,也许太近了。

适用换机和附加条款。详情请访问Verizon.com。

2025年,新年意味着新的机遇。一直在考虑自己创业吗?Shopify帮您搞定。Shopify让创建您的品牌、启动您的商店和获得您的第一笔销售变得简单。通过可定制的模板和强大的工具在社交媒体上销售,您可以开始在人们滚动浏览的任何地方销售。他们将处理运输、税收和付款,以便您可以专注于发展您的业务。不要等待。立即开始,让2025年成为您的想法腾飞的一年。

使用Redfin应用程序,您将立即知道您的下一个住所上市的时间。

现在,在我们开始谈论未来之前,我想了解一下你对众包地图绘制的其他方法的看法,对吧?例如,

对我来说,想到的两家公司是Hive Mapper,甚至是Meta的Mapillary,这是一次收购。他们更专注于你可以在驾驶时安装在车辆上的行车记录仪。你有很多拼车车辆,像联邦快递送货司机这样的车队远程信息处理公司都配备了这些摄像头。你对这些众包地图绘制的其他方法有什么看法?

我认为,我的意思是,显然他们收集了很多关于世界的大量照片。Mapillary和HiveMapper的困难在于,这些照片的姿态不够好,无法进行高斯斑点处理,例如。它们就是,它们不是。我认为,你知道,我们对合理的帧率视频更感兴趣,你知道,随着摄像机方向的变化,并且能够跟踪当时摄像机的IMU。

是的,我认为这是有道理的,对吧?像Mapillary,也许每10米一张照片就足以确定,哦,速度标志变了。现在是35英里/小时而不是之前的速度。但这不足以创建这个世界的3D渲染。你只是没有足够的视角。

创建这张地图的激励是什么?对。例如,你对需要多少人才能以这种去中心化的众包方式绘制世界地图,以及他们能从中得到什么有什么猜测吗?

在早期,这是谷歌地球问题的反面。因此,对于谷歌地球,你会放大,你会发现你的房子是否处于高分辨率状态。你会高兴或悲伤。我们的答案是你可以将你的位置、你的社区添加到地图上。你可以自己解决这个问题。我们发现人们真的为自己的社区、自己的城市、自己的地标感到自豪。

因此,能够拥有自己社区的高质量表示,我认为这是一个强大的动力,并非对每个人都有效,但对足够多的人有效,我认为我们可以很好地解决这个问题。是的,这是有道理的。用户所在的位置,他们可以创建这张地图。我认为这很好地引出了这样一个事实,即

你们正在使用这种新型的3D世界地图,不仅用于你们自己的第一方体验,如Pokemon Go,而且它是一个其他开发人员可以构建的平台,对吧?因此,如果他们想解锁这种增强现实体验,无论他们在哪里,他们都有办法在地图上放置东西,然后开始构建这些体验,而无需通过主流地图公司让他们去绘制这些地方的地图。

完全正确。我的意思是,我们提供的数据之一是API。我们有一个名为ARDK的Unity开发工具包,允许你将这种类型的VPS数据带入Unity。但我们也有这个新的Niantic Studio,这是一种低代码、无代码的方式来创作最初用于网络的增强现实和虚拟现实体验,你可以从中选择

我们已经绘制的百万个位置中的所有位置。但是如果我们没有那个位置,你可以拿出Scannerverse去绘制你的位置或你的10个游戏或体验的位置,并在其周围建立一个很棒的体验。我真的很自豪于Niantic Studio的体验以及它易于使用的方式。

这真的很令人兴奋,对吧?因为你是对的,就像当你启动Unity或你正在使用的任何游戏引擎时,你突然需要开发经验,这突然之间就出现了一个障碍。但是能够从字面上捕捉世界,然后将其变成你创造力的画布,并以这种无代码的方式进行操作,这真的很令人兴奋。但这里也有非娱乐用途,对吧?当然,你们专注于Niantic空间平台。

我在那里看到了一些用例,例如空间规划、仓库物流、受众参与、远程协作。你最兴奋的是什么?我认为我真正印象深刻的是实时共享AR、VR体验的想法。假设你派一名操作员到一个设备出现问题的现场。

该操作员可以扫描该设备并构建其3D视觉地图,并将其上传到云端,并立即将其显示给坐在办公桌后或戴着VR耳机的人。然后,用户可以看到

VR用户和VR用户可以看到AR用户,他们可以讨论完全相同的事情。一个通过VR虚拟地在那里,另一个在现场。你知道,我看到的一件事是,通常情况下,解决某些问题所需的知识水平非常高,但是能够进入现场也是一项很大的工作。如果你必须同时做这两件事,你的覆盖范围将会小得多。所以这个想法是拥有,你知道,

多个数据收集者和修复者,手册打开,所有东西我认为这将改变许多维修和许多产品是如何制造的。我喜欢这个。这就像,我发现自己总是回到这个,彼得·蒂尔的名言,比特世界比原子世界更容易。你有一种技术,从某种意义上说,它连接了比特和原子,并且像

一位现场服务专家要去,我不知道,去他妈的修理一个电力问题,或者一个5G塔之类的东西,需要让坐在世界某个地方的专家参与进来,就像他们真的在那里一样。听起来真的很令人兴奋。而且很酷,因为你可以立即明白,这种将神奇宝贝留在人行道上让其他人发现的能力,与这种更有用、更有用的用例所使用的技术完全相同。

没错。我们非常兴奋。我们有几家合作伙伴客户正在构建体验来解决现场服务问题。

现在的问题是风格问题。但你是对的。这是利用消费者能力来构建企业产品的能力,这是我们在 Keyhole 时代学到的东西,对吧?当我们在 2001 年启动 Keyhole 时,那是互联网泡沫破裂的时代。我们认为我们会获得数百万用户,然后以后再盈利。好吧,2002 年到了,我们不得不转向企业。那么,我们能用这个卫星图像产品做什么呢?

好吧,我们构建了企业服务和面向特定垂直领域的企业服务,这些垂直领域非常需要这种能力,并且愿意为此付费。这就是 Keyhole 在 2002 年和 2003 年的黑暗日子里幸存下来的方式。但到了 2004 年,谷歌收购我们时,我们做得相当不错。

现在感觉这些硬件设备之间存在一些差距,对吧?就像我在 Snap 峰会上玩 Snap 眼镜一样。当然,你们在那里有合作关系。你们几乎会与所有 AR 眼镜制造商建立合作关系。就像,是的,这些仍然是开发工具包。它们还没有完全到位。主要的体验是在手机上,但我们可以看到,这只需要几年时间。但我可以想象一家企业,你知道,花 1500 美元买一副眼镜,投资回报率是立即显而易见的。

没错。我认为,你知道,你会看到,对于混合现实设备(如 AVP 和 Quest)来说,会有有趣的应用,但是

因为它们可以做到与 AR 等效的功能,只是它是 MR,但许多相同的应用程序都可以使用。而且,你知道,AVP 上的头显相当大,但它很漂亮。对于一部分问题,它今天可能很有用。Quest 3 更便宜,佩戴也更容易,并且允许许多相同的 MR 体验,以及你刚才谈到的相同的共同定位。

我喜欢这个。是的,就像我拥有 AVP、Apple Vision Pro 一样,它就像是对令人惊叹的 AR 眼镜将实现什么的瞥见。我想从某种意义上说,这就像,你知道,

你知道,不用等待 Meta 推出他们展示的 10000 美元一副的 Orion 眼镜来将其变成大众市场产品。你可以将摄像头放在 VR 头显的前面,并通过现实世界,从某种意义上说。然后,但仍然可以构建这些体验,这些体验将完美地转移过来。但与此同时,我们也有 Meta 的 Ray-Ban 眼镜和这些更轻便的形状因素。

你是否对将地理空间情报(特别是当你将它们与我们讨论过的大型语言模型结合起来时)带入更轻便的形状因素感到兴奋,这些形状因素更像是你头上的麦克风和摄像头,也许是一个非常小的显示器,但有时甚至没有显示器?你可以围绕定位和你的位置添加一组功能。这些 Ray-Ban 将成为 Meta 明显将其连接到其 AI 和 Gen-AI 接口的界面。

它们需要输入上下文,而摄像头可以提供一些上下文。将相机照片转换为附加上下文的能力将有助于 MetaRay 乐队正在开发的助手模型。

但我认为,一旦你开始添加显示器,它就会变得更好。但我确实同意,Snap Spectacles 实际上非常令人印象深刻,因为 Evan 拥有他将构建这些东西的愿景。我认为,比几乎任何其他人更重要的是,他真正专注于 AR 的消费者用例。因此,我认为我们对这款 Spectacles 的版本有多好感到惊讶。它仍然不是消费级设备。它是一个 DevKit++ 设备。

但它确实指向了一个美好的未来。Orions 看起来很棒。因此,我们非常高兴 Meta 也参与其中。显然,他们正在大力投资于此。

但我认为,MR 的中间步骤在企业中更有趣,因为消费者永远不会在外面戴 Quest 头显。但企业用户很可能会觉得佩戴其中一个会使他们成为更好的操作员、更好的技术人员,无论是什么,他们都愿意这样做以更好地完成工作。因此,我认为在 AR 在消费者领域占据主导地位之前,我们将在企业中看到 MR 的用例。

这完全说得通。是的。即使是苹果尽最大努力让 Apple Vision Pro 看起来很酷,T-Pain 戴着这些东西四处走动,就像,是的,你知道,就像我很快就不再在商场看到它们一样。它变成了一个老生常谈。但你是对的,就像,

它是我们最接近北极星体验的东西。这将非常非常令人兴奋。稍微快进一点,你如何看待所有这些进步会影响,你知道,甚至像城市的设计和未来公共空间的使用方式?

我认为我一直想知道的一件事是标牌。标牌既好又坏。它很好,因为它更容易理解你所在的位置。如果它不是你的语言,那就是个问题。你不知道标志的确切含义。标牌是一个在每个人都戴着 AR 眼镜的世界中,

你不需要标记任何东西,因为所有标签都将是每个人都能以与其相关的密度看到的内容的增强现实。这非常令人兴奋,但这肯定只有在每个人都戴着眼镜的情况下才会发生。因为归根结底,如果你没有设备,你仍然需要弄清楚你要去哪里。我看过城市,你知道,我去参观时经常看城市,这

非常有趣的是,一些城市的标牌密度与其他城市相比如何。东京就是一个例子,它的密度令人难以置信。那里的问题是,至少有一半我不理解。谢天谢地,有一半是英文的,这非常有用。但很多时候,重要的东西只有日语。我会学习汉字和片假名,但不会很快。是的。

我的意思是,日本似乎也是 3D 制图的最终老板。只是有如此多的堆叠和 3D,甚至是 4D 性和嵌套,是的,构建一个模型来封装。是的,一些人口密度较高的日本城市感觉就像将是最后一件事情,然后也许是 3D 制图的最高标准。

好吧,对于谷歌来说,它绝对是,因为我认为它是谷歌实际推出自己地图数据的最后一个国家之一,因为现有的国内供应商 Zenrin 在他们所做的事情上非常出色,但他们通过雇佣数十万人去收集这些数据来做到这一点,因为日本非常重视他们的地图。因此,很难跟上,但最终谷歌的数据足够好,超过了这种能力。

我还想谈谈的一件事是,你知道,你谈到了连接 Niantic 的核心使命、使命宣言,以及,你知道,像 AR 和 VR 体验的实用版本,例如你使用 VR 预览你想去的地方,例如地图中的沉浸式视图,或者你提到的那些你可以远程查看现场服务专家正在做什么的体验。

但似乎你和 Niantic 公司对 AR 更为看好。这是你们与 Snap 共有的东西。Evan 对 VR 的看法非常直率,怎么说呢。我很好奇,为什么你们对 AR 更为看好?你认为 VR 会同样引人注目吗?因为,你知道,人们有游戏机,人们有我们使用的台式机,而这些不一定是始终以现实世界为基础的体验。

我认为 VR 是一种很好的体验。正如你所说,我的 PC、游戏机都是 VR 将继续被消费的绝佳例子,因为即使没有头显,通过我的桌面窗口的虚拟现实也相当不错,尤其是随着 Microsoft Flight Simulator 2024 的推出。AR 更有趣的原因是

你知道,我们已经证明我们拥有 30 亿到 50 亿这样的智能手机设备,我们所做的一切,我们在手机上花费的分钟数,不是在 VR 体验中,而是在数据体验、视频体验、文本体验中,这数量巨大。而 AR 眼镜是进行这种体验的更好的屏幕。

而且,你知道,它们更方便。它们,你知道,至少在某种程度上解放了你的双手。它们仍然允许你抬头看看外面的世界。我相信这些 AR 眼镜将取代手机屏幕。这就是我们看涨的原因。

这很有道理。是的。我的意思是,我的手机绝对是我的主要计算设备,我认为对其他人来说也是如此。就像,是的,仍然有一些情况下你想要,你知道,目前我们可能正在盯着多显示器设置,我们已经设置好以锁定并完成一些工作。但是,是的,当你外出时,就是手机。我们必须一直盯着这块玻璃板真是太奇怪了。我迫不及待地想要

你知道,你去参加任何这些音乐会,特别是,你知道,我在德克萨斯州的奥斯汀。在奥斯汀城市极限音乐节之前和之后,就像,你知道,天际线肯定发生了变化。但另一件变化的内容是,并非每个人都把他们的手机举起来,完全沉浸在体验中。这是我们可以使用技术让我们更贴近周围世界的东西。

没错。我认为手机会妨碍这一点。它们会导致你低头而不是看世界。它们会导致你举起手机拍照,眼镜都可以取代这两者。而这两者对我们来说都不是健康的体验。

所以在我们结束之前,当你想到一个无处不在的 3D 地图,我们所有这些设备都需要它时,你知道,也许有一些眼镜或手机,比如,我不知道,比如在人行道上送货的送餐机器人。感觉我们正在走向一个更加互联的世界。然而,感觉我们将拥有这些重叠的现实地图,就像我们今天一样。有一些世界地图在移动。

这是这种新型 3D 地图的未来,还是你预见到某种整合?因为当我想到 GPS 时,就像,是的,有一些不同的 GPS 星座在世界不同地区使用,但这在很大程度上是一种公共产品,任何人都可以使用,对吧?也许公共部门为此提供了补贴。你认为这下一代 3D 地图将如何发展?

我认为短期内会出现碎片化,因为出于不同的原因,不同的地图将解决问题的子集。Waymo 在凤凰城、旧金山和奥斯汀拥有一个优秀的地图,他们非常具体地使用它,以便他们可以在没有驾驶员的情况下安全地在城市周围行驶。所以他们的地图是……

他们的解决方案。我认为我们正在谈论的地图将应用于某些领域,用于定位、VPS,就像我们现在正在做的那样,但更普遍地提供这种上下文。我认为一段时间内会出现碎片化,因为市场会找到自己。

然后将出现一场关于质量和完整性的竞争,以及谁最准确、最新,并且最有效地提供它。我认为,就像 2008 年和 2009 年的谷歌一样,当

一个比其他所有都更好,并且保持这种状态数年。我知道这让苹果非常沮丧,但我认为最终会发生这种情况。但在过渡时期,将有几家供应商试图解决这个问题,他们将以略微不同的方式解决这个问题。他们将尽可能多地共享数据。我们已经拥有像 Overture 这样的地图数据联盟,它们现在正在努力

接近开源,你知道,地图数据的某些重要部分。但我认为下一组不会很快通过开源世界。我认为这是一个更难的问题,因为它不是微不足道的可解决问题,而且鉴于所涉及的数据量,它也不容易复制。是的,这就是你正在构建的东西以及所有这些其他公司,你知道,

包括谷歌正在构建的东西与大型语言模型问题不同。因为是的,每个人都在抓取开放网络,而这就像你可以轻松做到的事情。事实证明,抓取物理世界要困难得多。再次回到原子世界比比特世界要困难得多。没错。所以,

最后一个问题。在谷歌,你知道,我知道的一件事是,你预测单反相机将用于创建世界的三维模型。虽然智能手机最终占据了主导地位,但你似乎比大多数人都知道将会发生什么。

你对下一个重大技术转变的一些预测是什么?我认为很多能力都将放在设备上。我认为,你知道,手机内存、手机处理能力和电池能够解决我们目前使用云来解决的一部分问题。而且我认为隐私将是一个大问题,这将导致这种情况发生。我认为……

我们对人类知识面临的挑战之一是现在由 Gen AI 和大型语言模型所强调的,那就是我们拥有的最好的语言模型是建立在他们能够抓取、收集或组合的最佳数据之上的。它并不完美。它有时会产生幻觉,因为数据中存在漏洞,或者它会感到困惑,并且它的线路会交叉。所以

我们如何才能达到这样一种状态:与其围绕数据的错误进行波动,不如开始将我们的结果和答案集中在正确的自我检查答案上?我认为构建能够进行交叉检查的系统,能够有效地检查地理、视觉或网络文本中的错误信息,

这将非常重要。我认为目前的语言模型正在遭受两方面的困扰。但我认为可能有一条途径可以应用这些模型来检测和标记不正确的信息。如果他们能够做到这一点,我们就可以开始建立一个更好的数据集。我的意思是,我认为维基百科在某种意义上是这方面的体现,那就是人们正在编辑这个世界的模型。

并且有足够的编辑,并且有足够的流程,因此在大多数情况下,大多数时候,维基百科都是正确的。如果有人在 20 年前说过这个,我们不会相信。但人类已经自我纠正了维基百科,使其成为一种事实上的最佳真理来源。

我认为我们需要做到远超维基百科的水平,无论是科学信息、政治信息还是地理信息。我认为我们需要构建工具来自我纠正世界上的错误。我喜欢这个。当然,你在地理空间方面具有优势,在大多数情况下,地面真相实际上比这些其他对话更容易找到。这是真的。

布莱恩,非常感谢你加入我们。很高兴来到这里,比拉尔。我对我们共同的经历感到非常高兴。我们两人在谷歌创建地图数据方面有着悠久的历史,我非常感谢我们一起进行的对话。好的。所以让我告诉你,与布莱恩的谈话确实让我开始思考。

看到 Niantic 如何改变地图制作的方式真是太疯狂了。谷歌、苹果、微软,他们都是自上而下地构建地图。卫星、飞机、汽车,你知道的。Niantic?他们就像,“拿着我的精灵球。”他们正在自下而上地构建,将数百万名 Pokemon Go 玩家变成一个全球地图绘制派对。谈谈利用游戏和积极的社区的力量来产生现实世界的影响。

这不仅仅是改变地图的制作方式,它还改变了地图可以变成什么。我们正在从每年更新一次的静态快照转向对我们世界的动态、近乎实时的理解。

而这些不仅仅是供人类导航到咖啡店的地图。它们是机器用来理解它们在 3D 空间中位置的地图。无论是你的手机、AR 眼镜,甚至是自动驾驶汽车。特别令人震惊的是 Niantic 如何将高斯散射等尖端技术带到你的口袋里的手机中。突然之间,任何人都可以创建他们关心的任何空间或对象的逼真 3D 捕捉。

这就像在你的手中拥有一个记忆捕捉设备。虽然世界大部分地区都关注大型语言模型,但 Niantic 对大型地理空间模型的关注却非常引人注目。他们正在将他们的社区已经创建的所有这些空间理解岛屿,所有这些已经被扫描的 Pokestops,融合在一起,让 AI 对一个地方的直观理解与最好的 GeoGuessr 玩家一样。

对我来说,这是连接我们的数字世界和物理世界的基础基质。我敢说这是元宇宙的基础。

虽然我毫不怀疑 AR 最终会取代我们的手机,但我对设备上 AI 的未来感到非常兴奋。可以想象,我在 2023 年 TED 演讲中谈到的神经辐射场技术现在是可以实现的,不是在一个大型数据中心,而是在你的手机上,而且你的数据永远不会离开设备。这对隐私和用户控制来说是一个巨大的胜利。

而布莱恩对共享体验的强调,确实引起了我的共鸣。我们已经迷失在我们的数字泡沫中,但是由这些令人难以置信的 3D 地图驱动的 AR 可以帮助我们重新连接到物理世界,以及对我们来说最重要的人和地方。而且不要忘记企业应用的巨大潜力。人工智能驱动的工具,允许我们注释地点、远程协作以及虚拟传送到任何位置。

即使使用当前的 AR/VR 头显,可能性也是变革性的。当我退一步时,似乎地图的未来不仅仅是关于更好的技术。它是关于更好的连接。当我们突破空间计算的界限时,Niantic 向我们展示了真正的力量不在于构建完美的 3D 模型或精确的定位,而在于创建将我们联系在一起的工具。

帮助我们重新发现物理世界中魔法的工具。这就是我们应该为之兴奋的未来。好了,朋友们,这是 TED AI 节目第一季的最后一集。在过去的 25 集中,我们踏上了一段令人惊叹的旅程,探索人工智能正在改变一切的世界。

从挑战我们现实感的深度伪造到实时发生的戏剧性开放式 AI 董事会传奇,我们确实见证了人工智能渗透到我们生活的方方面面。我们冒险进入人工智能变得非常私人的领域。

从作为伙伴的 AI NPC 到治疗机器人和读心界面,我们研究了人工智能对全球系统日益增长的影响,从预测天气到改变教育,从联合国治理框架到国家安全考虑。也许最引人入胜的是,我们探索了人工智能与人类创造力和意识的关系。

谢谢。

在我们结束 TED AI 节目的这一章时,我很高兴地分享,我与 TED 的旅程正在发展。我将担任客座策展人的角色,将科技和人工智能领域的尖端声音带到 TED 的全球舞台。对于那些好奇接下来会发生什么并希望继续一起探索这些前沿领域的人,你可以在 X 和 LinkedIn 上找到我,我的名字是 Bilal Volsadu。感谢您参与这些对话。它们对接下来发生的事情至关重要。

TED AI 节目是 TED 音频集体的一部分,由 TED 与 Cosmic Standard 联合制作。我们的制作人是 Dominic Girard 和 Alex Higgins。我们的编辑是 Banban Sheng。我们的节目主持人是 Ivana Tucker。我们的工程师是 Asia Pilar Simpson。我们的研究员和事实核查员是 Christian Aparta。我们的技术总监是 Jacob Winnick。我们的执行制片人是 Eliza Smith。

但别担心,这不是告别。我会在下一集见到你们。这次,不是作为节目的主持人,而是作为嘉宾。对其他人来说,这是一项任务。但对你来说,

这是一个机会。切换到 Boost Mobile,并以 29.99 美元的价格获得 Coach Prime Moto G 5G,网址为 BoostMobile.com。Boost Mobile 网络与我们的漫游合作伙伴一起覆盖了 99% 的美国人口。当您使用新的无限加或无限高级套餐激活时,Moto G 5G 售价 29.99 美元。仅限在线。税费另计。所有价格、费用、功能、功能和优惠如有更改,恕不另行通知。访问 BoostMobile.com 获取详细信息。

如果您正在寻找灵活的锻炼方式,Peloton 可以满足您的需求。夏季跑步或季后赛冥想。无论您的氛围如何,Peloton 都有数千个课程可以帮助您提升自己。

我们知道生活是如何进行的。新爸爸,新习惯,新地点。重要的是,你有一些东西可以适应你,无论你需要挑战还是休息。Peloton 拥有您在任何时候所需的一切。找到你的动力。找到你的力量。Peloton。访问 onepeloton.com。

安全团队面临着更多的问题。更多的安全工具会带来更多的复杂性。需要保护更多的设备。更多专门的关注领域会创建更多孤岛。安全环境正在快速变化。安全运营如何才能转变以应对当前的威胁?Palo Alto Networks 的 Cortex 将 SecOps 工具整合到一个集成平台中,并帮助组织利用 AI、自动化和分析大规模阻止威胁。

在 paloaltonetworks.com/cortex 了解更多信息。