随着生成式人工智能模型的兴起,谷歌在搜索引擎中的主导地位是否面临风险?在本期播客《下一波》中,主持人马特·沃尔夫和内森·兰兹与比拉瓦尔深入探讨了这一话题。他们探讨了由于生成式人工智能模型的进步而给谷歌搜索引擎霸主地位带来的潜在挑战,并讨论了这对搜索引擎和广告未来的影响。比拉瓦尔讨论了人工智能生成内容对搜索结果的影响,以及在不断变化的数字信息环境中采取细致入微的方法的必要性。在YouTube或您收听播客的任何地方查看更多《下一波》内容。</context> <raw_text>0 嘿,大家好!本周,我将分享我在一个我认为你会喜欢的播客上进行的对话。它叫做《下一波》。它由企业家和科技爱好者马特·沃尔夫和内森·兰兹主持。我们讨论了搜索霸权、谷歌的未来、伦理考虑和人工智能内容创作等等。
《下一波》为您带来新的视角、行业见解以及关于如何实施人工智能来发展业务的可信赖的观点。它就像您的首席人工智能官。我非常喜欢这个播客,因为他们能将人工智能中的所有疯狂之处提炼出来,使其易于理解。您可以在 YouTube 或您收听播客的任何地方查看《下一波》。下周我们将推出新的 TED AI 节目。
我仍然看好谷歌,因为我认为它就像你在科技公司看到的冰山一角。而水下部分则令人惊叹。他们拥有最完整的物理和数字世界模型。他们拥有无处不在的分销网络和现有的广告和销售生态系统来实现盈利。所以我认为这仍然是一个神奇的组合。嘿,欢迎收听《下一波》播客。我是马特·沃尔夫。我和我的联合主持人内森·兰兹一起。
通过这个播客,我们的目标是让您了解所有最新的 AI 新闻、最新的 AI 工具,并帮助您掌握脉搏,以便您为即将到来的下一波 AI 做好准备。今天我们有位非常棒的嘉宾。
节目中有一位很棒的嘉宾。我们邀请了比拉瓦尔参加节目。他是 TED AI 播客的主持人。他是一位前谷歌员工。我们将和他谈谈在谷歌从事人工智能和视觉特效工作的感受。我们将讨论
我们是否应该加速或减缓人工智能发展的区别。我们还将了解一些这些 AI 视觉特效工具的工作原理,因为这是比拉瓦尔长期从事的工作领域。这是一集精彩的节目。你将学到很多东西,我迫不及待地想与你分享。想要一个具有无与伦比的强大功能、速度和
和控制力的网站?试试 Bluehost Cloud,这是 Bluehost 的新型网络托管计划。由 WordPress 专家为 WordPress 创建者打造。凭借 100% 的正常运行时间、令人难以置信的加载时间和全天候 WordPress 优先支持,您的网站将以闪电般的速度实现全球覆盖。使用 Bluehost Cloud,您的网站可以处理流量激增,无论规模多大。此外,您还可以自动获得每日备份和世界一流的安全保障。立即访问 bluehost.com 开始使用。
那么让我们和比拉瓦尔开始吧。比拉瓦尔,非常感谢你今天来参加节目。感谢你们的邀请,先生们。很高兴来到这里。是的。所以我想直接进入正题。你的背景是谷歌,对吧?所以,我认为当我和你第一次联系,我们第一次在 Twitter DM 上开始聊天时,你当时还在谷歌工作。你还在业余时间经营着你的 YouTube 频道和所有你正在进行的事情。但是
告诉我们。你在谷歌做什么?你在那里的角色是什么?你在那里的经历如何?哇,是的,太棒了。我在科技行业工作了十年,在谷歌工作了六年。我能够参与将物理世界和数字世界融合在一起的项目。我最初是在 AR VR 团队工作,当时空间计算(现在这样称呼)刚刚兴起。这就像 DK2 推出之后,谷歌眼镜出现之后。每个人都在谈论下一代计算平台是什么?
从这场移动革命中,我们将走向何方?我有机会在那里参与了许多很酷的事情。YouTube VR 内容、科切拉音乐节直播、青少年选择奖、埃尔顿·约翰,我们用来进行立体 3D 捕获的摄像系统,当增强现实流行起来时,增强现实 SDK。之后,我在谷歌地图工作了四年,基本上是从头开始创建世界的三维模型,重新绘制世界地图,如果你愿意的话,
然后将世界变成一个带有 AR Core 地理空间 API 的 AR 画布。这很有趣。是的,与一些非常有才华的人一起参与这些项目,这些项目模糊了比特世界和原子世界之间的界限,这真是太棒了。所以我很想知道,从事所有这些工作,在我看来,我甚至无法想象在谷歌一天的工作是什么样的。我去过谷歌园区,它看起来像一个巨大的……
科技极客的游乐场。所以我对在谷歌工作的感受很感兴趣。那里的日常工作是什么样的?我是一名产品经理。所以我的日常工作与你如果去和工程师或设计师谈话会有很大不同。对我来说,说实话,有很多会议。这只是很多时间。但是也有一些非常酷的事情。我认为谷歌和大型科技公司通常都是这种有趣的缩影
就像,你知道的,我会发一封电子邮件,然后,写过计算机视觉书籍的那个人,就像每个人都读过的计算机视觉书籍,会回复它。我收到很多,很多提示,比如,“某某回复了你的东西”。这就像所有这些神奇宝贝,就像,你知道的,这些公司已经抓住了这些神奇宝贝,可以随时在你身边,分享想法,融入你自己的项目。真的就像,你知道的,有这么一个,呃,
它就像你在科技公司看到的冰山一角,而水下部分则令人惊叹。所以当我转到地图团队时,我当时正在考虑眼镜。我去地图的原因是,我遇到了一位工程师。他说,“哦,是的,我们编写 CL 来移动天空中的卫星。”我说,“等等,什么,哈?”
天空中的卫星。他说,“是的,就像字面意义上编排一个舰队一样。”就像,你知道的,大多数人不知道这一点,谷歌拥有自己的舰队,不仅仅是街景车,还有飞机。哦,哇。所以能够像这样安排任务。所以,比如,“嘿,我们需要,你知道的,我们有这个桑达尔·皮查伊的事情要来,我们将展示沉浸式视图。
我们必须去捕捉这个伦敦的高分辨率模型,而且不要,你知道的,世界上的事物突然开始移动以实现这一点。我认为这绝对令人惊叹。我认为人们严重低估了谷歌拥有的数据模式。显然,我们谈论的是世界上最完整数字孪生,但像搜索一样,对吧?像 YouTube 一样。我的天哪。
所有这些东西都可以使用。你可以围绕它构建很酷的东西和产品,但随之而来的是,这对于科技界的人来说可能并不奇怪,但对于你如何实际使用这些数据,有很多责任和防护措施。就像奖品的规模和你能够使用的数据库一样令人惊叹,但是要能够用它做一些事情,你真的必须非常周到,并且需要很多流程来释放这种创新。
所以是的,这就是我将如何描述它,我认为它就像一个,它就像一个,它就像一个极客的迪斯尼乐园,老实说,所以听起来你仍然非常看好谷歌,因为我知道我们去年一直在开玩笑,比如,你知道的,我说也许谷歌会倒闭,你说你在说什么胡话,是的,是的,我们之前在这个播客上讨论过这个问题,我说,你知道的,我认为我给了谷歌更多赞誉,我认为内森更不确定,我不知道他们是否会成为顶级
人工智能领域的佼佼者。你对此有何看法?你会淘汰谷歌吗?你认为谷歌会超越微软人工智能的复仇者超级团队吗?很难肯定地说任何事情,但我可以说的是,在我离开谷歌之后,我认为我是少数几个对谷歌说好话的人之一。每个人都只是说,“哦,是的,他们太慢了。他们搞砸了。他们提出了一个转换器。所有转换器的人都离开了。我认为这种情况是……
搜索领域没有真正的破坏性创新出现。是的,有人谈论过,嘿,孩子们现在在 TikTok 和 YouTube 上搜索,但 YouTube 是谷歌旗下的。TikTok 是一种短视频形式。人们真的会,这会成为一件有韧性的事情吗?有人可能会争辩说,现在社交网络是人们进行大量搜索的地方,但传统的搜索就像,
你知道的,地图专家只是为了给出地图的比喻。就像,你知道的,地图是你如何在现实世界中发现事物的方式。谷歌是你如何在数字世界中发现事物的方式。它实际上是你通往万维网的窗口。对。我认为没有任何东西像
那样质疑谷歌在那方面所处的强大地位,直到 ChatGPT 出现,人们突然开始将这些点连接起来,看到,哟,如果你将大型语言模型与知识图谱和搜索索引连接起来,就像 Perplexity 和微软 Copilot 以及 OpenAI 下周将要宣布的任何其他东西一样,以削弱谷歌的任何风头。我认为人们开始说,有一种破坏性创新正在出现
我认为,再加上搜索广告商业模式就是一个印钞机,而且现在仍然是。而且,你知道的,这些生成式人工智能模型的每次查询成本显然会更高。你如何进行广告和归因以及所有这些事情?就像这会代表谷歌创造的印钞机和业务中的收缩,以及馅饼,所有迹象都表明存在创新者的困境。我认为,
谷歌已经采用了创新者解决方案的策略。你知道的,最初他们进行了一些重组,感觉更像是高管重组。现在他们实际上正在将大脑和深度思维团队整合在一起。他们实际上正在以非常好的节奏发布
我认为他们仍然拥有一些其他公司正在谈论的、最独特的数据集,这些数据集可能已经被抓取了。例如,OpenAI 的首席技术官被乔安娜·斯特恩问到,你使用公开数据进行训练到底是什么意思?所以总而言之,我仍然非常看好谷歌,因为我认为他们拥有最完整的物理和数字世界模型。他们拥有无处不在的分销网络,并且拥有正确的基础设施能力,基本上可以
降低每次查询的成本,并拥有现有的广告和销售生态系统来实现盈利。所以我认为存在一种可以盈利的类似答案引擎的模型。我认为谷歌是少数几家能够破解它的公司之一。
这并不是说我认为 OpenAI 和微软可以占据有意义的市场份额,但说实话,我们有多少人实际上使用必应?我不使用,对吧?我使用了一段时间,我现在可能更多地使用 Perplexity。是的。我的意思是,我这些天一直在使用 ChatGPT 和 Perplexity 而不是谷歌。同意。说实话,我也是。是的。
然后,你知道的,我一直在关注,很久以前,我曾经做过 SEO,很久很久以前。我一直在关注那个领域,就像在过去的两个月里。我大约一年前就预测到了这一点。他们正在对算法进行重大更改,他们非常关注权威性。是的。域名权威性。是的。是的。
是的,他们不得不这样做是因为所有 AI 内容的泛滥,对吧?我的天哪。他们根本无法处理 AI 内容的泛滥。所以就像,好吧,你如何处理这个问题?让我们回到真正重视大品牌和大牌或名人身上。另一件事是,也许他们正在获取社交信号。你在社交媒体上有很多粉丝。现在这是一个信号,表明你是一个他们应该倾听的权威人士。是的。我的意思是,你认为我们为什么与 HubSpot 签约?我们想要那个反向链接域名权威性。是的。
这就是唯一的原因。是的,是的,是的。我的意思是,这将成为该行业的元问题,对吧?合成内容的爆炸式增长。我的意思是,一些社交网络几乎是在鼓励这种行为。在领英上,它会使用 GPT-4 来建议评论。现在你有了最令人尴尬的,就像,
对原始帖子的重复和总结,显然一个正常人永远不会写这个。但如果有一个关于如何在领英上回复某人的模因,我的意思是,这就像概括了我看到的风格。这种情况也在 Quora 上发生。所以现在,Quora 开始在谷歌搜索结果中排名靠前。
Quora 现在正被 ChatGPT 的回复所主导。百分之百。我的意思是,亚马逊上的书籍也是如此。我认为他们也出台了限制措施,你每天只能上传 X 本书。我不知道这是否是解决方案。但是,就像,这就像深度伪造、浅层伪造问题一样。每个人都在谈论检测深度伪造,以及我们如何解决这个问题?就像,
好吧,今天造成最大伤害的事情实际上并不是深度伪造。它们就像超级浅层的伪造,你从不同的时间或语境中获取一张照片,然后将其放在另一个语境中。这正是你在 Twitter 上看到的社区注释类型。这些东西相对更容易检测,因为如果你进行反向图像搜索,你实际上可以找到源图像。所以就像你在上面添加了生成问题,它变得更加疯狂。但是,
大多数平台实际上甚至还没有解决浅层伪造问题,对吧?当它达到一定的传播阈值时,就会有一种追溯性的说法,让我们来限制这个东西,而不是,你如何领先于这个东西?无论如何,我可以永远谈论这个话题,因为一些避免这种情况的方法是普遍监控,这也不是,你知道的。哦,是的,听起来很棒。就像解决听起来像 1984 年的事情的方法一样,就像 1984 年的技术一样。就像,
这种运作方式有点奇怪。但很有趣。有人前几天与我分享了一篇文章,这篇文章是关于,不仅仅是我,而是关于这七位人工智能影响者正在改变我们看待人工智能的方式的文章。对。然后像七个人中的一位是我的名字,我读了我自己的简介,我自己的简介是这样的,我在路易斯安那州长大,从事房地产工作。你是我的邻居。是的。
然后转向计算机编程,然后开始教授人工智能。我说,除了他们说马特制作关于人工智能的内容之外,其他所有内容都是完全错误的。我认为这也是这些模型需要锚定在某种真实的知识图谱中的原因,你知道吗?这并不是说,你知道的,像搜索这样的方法只会给你真相,对吧?就像,什么是真相?对此有不同的看法。
但我认为这些模型能够至少用已知信息来检查自身的事实,并提出,哦,至少有三个信誉良好的来源说这是马特的传记,这会比
我不知道。所以我说,这相当于大约 2019 年左右开始渗入谷歌的 SEO 废话。我认为,你知道的,这将是一个巨大的问题,更不用说,如果我们用完了互联网上的内容,并且我们正在积极地阻止人类生成的内容,那么我们将如何训练这些模型?那里会发生什么?是的,我想,我想快速谈谈,嗯,
关于搜索,只是给任何可能正在收听本集节目的听众一瞥,我们实际上是在谷歌 I/O 之前录制它,对吧?从我们录制这个节目的时候起,谷歌 I/O 将在下周举行,比拉瓦尔和我实际上将亲自参加谷歌 I/O,但是,
但是,你知道的,你提到的一件事是,OpenAI 和微软有一种倾向,那就是每当谷歌宣布一些事情时,他们都需要介入并试图超越他们。所以,你知道的,到本集播出时,我们可能已经知道 OpenAI 对搜索做了什么。但目前的传闻是,OpenAI 正在与谷歌一起创建某种自己的搜索引擎。
也许微软也参与其中,也许没有。仍然有很多谣言和猜测在流传。但根据你对谷歌的了解,你认为 OpenAI 和 ChatGPT 能否参与竞争?我认为不能。我认为谷歌拥有的搜索索引是一道非常强大的护城河。他们能够几乎实时地绘制互联网地图的事实,这是一个非常困难的技术和基础设施问题。他们为此做好了充分的准备。我很想知道它是什么。显然,这是完全的空想,谣言工厂。就像 OpenAI 将要推出的东西一样。我认为它将是,
与 Perplexity 类似的东西,也许有一个更好的搜索索引。就像,即使是这样,你也会得到某种多模式摘要,它会查看许多链接,你会得到,你知道的,一些图像,也许一些嵌入式视频以及你所要求内容的摘要。因此,你可以验证这些链接的质量,即被总结的链接。我认为这将是一个巨大的进步,对吧?就像能够调用一样
就像现在在 ChatGPT 中进行搜索一样笨拙。你必须说,“嘿,好吧,查找这个,研究这个”,并明确提示它这样做。能够以一种真正关注的方式做到这一点,就像
依赖于实时和某种,你知道的,具有真实出处的内容,以及,你知道的,提炼的智慧,智慧是值得商榷的,大型语言模型中提炼的智慧来总结这一点,我认为这仍然是一个神奇的组合
我不知道你们是否也有这种感觉,但我认为关于对话和某种程度上的氛围一直在发生变化,马特,我知道你有一篇关于我们认为事情正在放缓,但这里有一系列即将到来的公告活动的文章,对吧?但这感觉就像我们希望看到的那些飞跃并没有真正到来吗?我认为 Sora 是一种
我认为从一百万到一千万,再到可能无限的上下文,这是一个有趣的飞跃,但也许我们只是太习惯了,你知道的,与技术相比,进步的速度正在放缓。我很想知道你们的看法。是的。
我不知道。我觉得这有点像社交媒体。人们的看法是,氛围发生了变化。但我感觉很多实际上更接近山姆·阿尔特曼的人并不这么认为。所以我仍然相信,你知道的,他们有一些令人惊叹的东西即将到来。我关注加里·马库斯。我知道。我认为你实际上邀请加里·马库斯参加 TED AI 播客。所以我们很快就会从他那里获得更多见解。但是
你知道的,加里·马库斯一直在 Twitter 上谈论的事情是,我们没有看到从 GPT-4 到 GPT- 或从 GPT-2 到 GPT-3 的那种飞跃。他认为每个人都在谈论的关于我们正在使用人工智能的指数曲线是不正确的,对吧?我们没有在这条指数曲线上。否则,就像,为什么我们没有在从 GPT-2 到 GPT-3 的一半时间内从 GPT-4 到 GPT-5?对吧?为什么没有显示出来?但我认为我对此的反驳是,只是因为我们没有看到它并不意味着它不存在。正在发生,是的,完全正确。我认为在 OpenAI 幕后有很多事情正在发生,就像内森暗示的那样,我们没有看到。
我认为这可能更多地与实际使用这些更新、更高级模型的计算需求有关。如果他们现在以可用的计算能力发布它,那将非常昂贵。而且,你知道的,人们每月支付 20 美元来使用 ChatGPT,可能不足以支付运行这些新型模型的推理成本,Sora 也是如此。我的意思是,这是我所相信的主要理论,我知道我,我相信 GPT-2,就像那个神秘的模型一样,它就像,“好吧,
那是什么?”是的。就像,
也许就是这样。就像他们实际上,也许这是他们一两年前开发的东西。它是一种更高效的架构,或者类似的东西。然后 GPT-5 可能就是基于此构建的。然后他们,你知道的,理论上他们对成本问题有较少的顾虑。但是是的。我认为如果 GPT-2 的东西实际上是 OpenAI,那将会很有趣。我的意思是,这是一种在野外测试模型的有趣方式,而不是,我不知道,运行某种 AB 测试,或者某种实验,
在 ChatGPT 网站上,一部分用户获得某个模型,而另一部分用户获得另一个模型。也许明确地说明存在这两个版本的模型,并让人们分别对其做出回应会很有趣。也许他们打算制造一些公关,就像,你知道的,在真正的赛车跳跃时刻发生之前,播下谈话的种子,润滑一下齿轮,或者其他什么。我不知道,但是,
是的,就像我倾向于同意。就像有计算方面的问题一样。Sora 肯定没有广泛推出,因为它太耗费计算资源了,对吧?就像你需要提出一种完全不同的定价模型,远远超过 20 美元的定价模型。也许这就是他们与工作室谈话的原因。但所有这些模型也将得到优化。对于加里·马库斯的观点,这很有趣。我上周和他进行了一次谈话,我说,就像他一直以来都非常坚定地认为这不是正确的范式一样。
而且,你知道的,我认为人们喜欢,直截了当地说,人们喜欢批评加里。但是,你知道的,如果加里有一件事是一贯的,那就是他一直以来都非常坚定。所以我不知道。就像,我想看到这种代理的,
副驾驶,感觉更像是一个员工。我们当然还没有看到它,对吧?与其他所有事情相反的是,人们对人工智能的期望,就像一年前,当 GPT-4 推出时,是如此之高,以至于人们只是认为,无论你是知识工作者还是视觉创作者,你都会看到这个叙事,你会说,“我的天哪,这个东西会抢走我的工作。”
然后我不知道你们是否看到了这条推文。我说,然后你使用这项技术,它感觉不像这个,像弗里克·凯朱·哥斯拉,会踩死你。更像是一个混乱的金毛猎犬,你可以哄它和你一起做很酷的事情。我认为期望与现实之间的差距是如此之大。而且,你知道的,像所有这些,
我认为即使在最近的山姆·阿尔特曼采访中,他也在问他最大的遗憾之一是 GPT-4 没有产生每个人都认为它会产生的那种经济影响。他担心钟摆现在会摆向另一边,如果期望如此之高,人们会说,“哦,是的,随便吧。”所以,我不知道。我认为答案总是介于两者之间,但我禁不住觉得——
我们已经超越了膨胀的期望的顶峰,我们正在进入幻灭的低谷。好吧,让我们拭目以待。我的意思是,山姆·阿尔特曼也说,他很惊讶 GPT-4 如此成功,而且它,你知道的,它有点糟糕。我不知道。我对此的感受是,山姆·阿尔特曼是我们时代最伟大的营销人员之一。而且他,
你知道的,他真的,真的,非常擅长让炒作之轮旋转起来。哦,宝贝。是的,我发誓。我认为我认为山姆·阿尔特曼非常聪明。我认为,你知道的,当你看到他说话时,当他接受采访时,他非常有计划,对吧?他会问一个问题,他会坐在那里,通常会在回答之前停顿几秒钟。
随着生成式人工智能模型的兴起,谷歌在搜索引擎中的主导地位是否面临风险?在本期播客《下一波》中,主持人马特·沃尔夫和内森·兰兹与比拉瓦尔深入探讨了这一话题。他们探讨了由于生成式人工智能模型的进步而给谷歌搜索引擎霸主地位带来的潜在挑战,并讨论了这对搜索引擎和广告未来的影响。比拉瓦尔讨论了人工智能生成内容对搜索结果的影响,以及在不断变化的数字信息环境中采取细致入微的方法的必要性。在YouTube或您收听播客的任何地方查看更多《下一波》内容。</context> <raw_text>0 我认为他拥有营销人员的思维模式。就像,我能说什么呢?他会煽风点火,以此来炒作一下。我认为这就是他大脑的工作方式。所以,我认为,他说这将是你用过的最糟糕的模型,这完全是营销手段。我当然很兴奋。但是,如果我现在能提一个要求,那就是,给我2020年4月20日的GPT-4,也就是去年的版本。那个版本的GPT-4更好。它更好,该死的。你不能进入OpenAI的游乐场并选择旧模型吗?我认为你可以。是的。我觉得所有这些模型,尤其是在消费者界面中,都遵循这样的轨迹:当它们发布时,它们非常好。然后随着时间的推移,各种努力确保输出在轨道上并且没有危害,你就会看到这种恶化发生。但嘿,这就是我们也有开源的原因,对吧?对。是的。节目的支持来自领英。领英广告允许你建立正确的关系,推动业绩,并在尊重环境中接触你的客户。他们不会受到轰炸。这是非常有针对性的。你将直接接触并与客户建立关系
拥有十亿会员,1.8亿高级管理人员,似乎每个人都在领英上,还有1000万C级高管,你将能够通过专门为B2B构建的定向和衡量工具来推动业绩。在科技领域,领英产生的广告支出回报率是其他社交媒体平台的两到五倍。
你将与一个尊重你在其中运营的B2B世界的合作伙伴一起工作。79%的B2B内容制作人表示,领英为付费媒体带来了最佳效果。立即开始将你的B2B受众转化为高质量的潜在客户。我们甚至会在你的下一次活动中给你100美元的信用额度。访问linkedin.com/TEDaudio领取你的信用额度。网址是linkedin.com/TEDaudio。适用条款和条件。领英,最佳去处。
那么,让我们也谈谈视觉效果,因为这就像,这确实是你在谷歌的背景。我想回到,我想回到某种,呃,你知道的,呃,三维成像一对一谈谈。你能解释一下摄影测量、激光雷达、神经辐射场和高斯散射之间的区别吗?
我很乐意。事实上,我一直在谈论的是,每个人都在谈论生成式人工智能,但我认为没有得到太多关注的是视觉空间人工智能领域。所以,将空间智能视为
实际上就像现实捕捉一样,世界是三维的,所以你知道,马特,你说的对,它基本上就是摄影测量,是将二维图像和其他传感器数据(如激光雷达)转换成现实世界三维表示的艺术和科学
摄影测量技术早在计算机发明之前就存在了。这是一种基本上利用数学、图像和对世界的观察来从图像中提取三维结构的方法。但你也应该将空间智能视为机器解释空间数据(如地图、三维模型、我们所看到的世界)的能力,对吧?所以,
对我来说,摄影测量或现实捕捉,所有这些其他技术都是关于重现现实的。正如我提到的,摄影测量并不是什么新鲜事物,对吧?但我认为,之所以你会听到所有这些事情,是因为机器学习极大地促进了它,基本上是这些学习方法来模拟现实的复杂性,对吧?就像,我该如何利用一堆这样的二维世界图像,以及
并让模型执行这个逆向渲染问题,它就像,哦,这就是这100张照片在三维空间中的位置。基于此,我将逐像素进行光线追踪,并创建一个有意义的三维表示。由于你确切地知道你拍摄的照片中模型的样子,你最终得到的表示就足够好了,可以从所有角度观看。所以,
这基本上,第一篇神经辐射场论文发表于2021年,名为神经辐射场。然后就有了疯狂的进步。就像我们从数据中心谈到你的英伟达工作站中的GPU,再到你的口袋里的iPhone。但这也不是什么新鲜事。这些基于机器学习的学习表示有类似的精神继承者,可以概括现实的复杂性。进入辐射场,对吧?就像,
通常考虑辐射场。想象一个体素网格,一个立方体的立方体,其中每个立方体都有一个颜色值和一个alpha透明度值。
就像,这就是你最终使用神经辐射场得到的结果。然后当你进行体积渲染时,你基本上可以,你知道,最终得到这些逼真的世界渲染。所以神经辐射场很酷的部分是,不像摄影测量那样得到这个三维网格模型,这个带有纹理贴图的表面,想想像糟糕的GTA模型一样。
使用神经辐射场得到的是辐射场,这个体素网格包含所有这些体素及其各种值,这些值会根据摄像机观察方式而变化。正因为如此,你得到了摄影测量无法做到的一些东西,那就是,
模拟透明度、半透明度,比如玻璃、闪亮物体。所有这些都可以做到。火焰、体积效果,所有摄影测量无法做到的事情。因为想象一下需要制作这个东西的纸板纸浆模型。它看起来会很糟糕。你如何模拟头发、火焰、雾气,所有这些东西?你可以用这些隐式表示来做所有这些。
现在,神经辐射场的问题是渲染速度。因为你有一个体素网格,并且你正在进行体积渲染,你首先进行训练过程需要很长时间,但是当你想要渲染图像时,你必须进行体积渲染,并且像追踪这些光线穿过该体素网格并累加这些值,就像……
这需要很多时间。基本上就像,想想每秒一帧来渲染这些视频中的某些内容,对吧?高斯散射出现了,它就像,嘿,我们甚至需要神经辐射场的神经部分吗?就像,我们需要机器学习吗?我们能不能只用老式的统计技术来做这件事?
就像,这有点疯狂,对吧?所以,与其使用这种隐式黑盒表示,其中现实建模在这个多层感知器(MLP)的权重中,不如使用这种显式表示,这些像椭球散射状的东西称为高斯函数。把它想象成超级可伸缩的球体。事实证明,你可以获得巨大的,
巨大的质量飞跃,同时也能以更快的速度进行渲染。所以,就像,从每秒一帧,你得到了每秒一百帧。由于它是一个显式表示,它采用这种格式,就像我在屏幕上显示的所有这些应用程序一样,它采用这种名为PLY的斯坦福PLY文件格式。
你基本上可以将其导入任何行业标准的游戏引擎中。你可以将其导入Blender、虚幻引擎或Unity中。由于它不是这个黑盒,就像你必须处理的神经网络一样,它是显式的,你可以更容易地删除和编辑内容。所以看到
那里发生的事情真是太疯狂了。但基本上,在神经辐射场和高斯散射之间,将高斯散射视为没有神经渲染部分的神经辐射场。这篇论文使用了诸如训练之类的术语,但在3DGS中根本没有涉及神经网络。
所以,这有多疯狂?我们从,酷。是的,你可以制作很酷的飞行视频。如果你还记得,这就是Luma应用程序早期的工作方式,进行扫描。现在你可以重新设置动画摄像机,你让这个东西渲染20分钟,然后你得到了结果。现在你可以直接将你的扫描导入这些实时环境中。这太棒了。我认为在左边,我在英伟达GPU上获得了大约400 FPS。在右边,我把这个东西放在虚幻引擎中。是的,
很酷的部分是,与摄影测量非常相似,神经辐射场仍然模拟这些光传输效果。所以,再次想象一下,如果这是一个纸板剪纸模型,你就不会有所有这些光传输效果,光线穿过树木等等。高斯散射通过使用这个OG物理概念——球谐函数来做到这一点。
你知道的,呃,来建模它。所以,如果你试图优化一些东西,你可以去除一些所谓的视图相关效应,这意味着当你改变你的视图时,材料看起来略有不同,但你基本上得到了所有这些,呃,使用高斯散射。所以我认为这非常令人兴奋。而且,嗯,就像你可以在云端做这些事情。你可以在你的电脑上做这些事情。现在,我认为PostShot是一个很少有人使用工具,但是
如果你正在处理商业项目,并且不想上传你的数据,你知道,使用Luma的服务条款或Polycam的服务条款,你可以在你的桌面上使用PostShot和Nerf Studio进行本地训练。Nerf Studio中的一些模型不适合商业用途。然后甚至在你的口袋里的手机上,对吧?就像,如果你有一部iPhone,就像,
一部现代的iPhone,你只想了解三维,就像,现实捕捉和辐射场是什么,只需下载Scaniverse应用程序,然后开始使用它。所以,这可能是一个愚蠢的问题,但是,就像神经辐射场和所有这些新技术一样,你能否制作一个非常逼真的三维模型,比如旧金山市?我的意思是,你之前是不是给我看的就是这个?就像,
只在一个特定的场景中,这有多难?是的,我的意思是,有很多新的论文发表,对吧?最初的神经辐射场,所以有一篇名为Block Nerf的论文试图使用Waymo数据集将神经辐射场扩展到城市规模。同样,在高斯散射领域,你看到了不同的论文,基本上是关于具有良好的过渡来模拟整个城市,最终是地球的嵌套层次结构的散射
我认为这就是学术界和工业界正在走的道路。我认为你已经看到在研究中非常可信的城市规模数据集。我认为这只是时间问题,这些东西就会投入生产。
你认为这是谷歌地图的未来吗?我认为这肯定是地图的未来。你知道,在沉浸式视图中,有一些室内位置,你可以获得预渲染的神经辐射场,你可以四处走动并查看。这只是它的发展。我认为这些数据集存在,世界上只有少数几家公司拥有它。所以我认为这就是地理空间和地图的未来。但另一方面,我认为有趣的是,
你知道,这项技术,像构建世界地图很容易。更新它要难得多,对吧?当人们谈论这个现实的一对一数字孪生时,他们就像,哦,是的,顺便说一句,新的东西一直在建造。事情一直在变化。季节性是一个因素,对吧?所以,
我认为有了这项技术,由于传感器更便宜,计算更便宜,现在我们可以访问相同类型的算法和方法来模拟现实,我认为更新这个世界模型将会变得容易得多。所以我认为,在不久的将来,我们四处走动,你知道,驾驶我们的汽车和四处走动
戴着我们的眼镜或其他东西。我们正在实时更新这个世界的实时地图。我认为我们正朝着这个方向前进,而且现在比以往任何时候都更接近。你认为这项技术的商业应用是什么?我的意思是,所有这些应用都重视现实世界中的事物,既有实用性也有乐趣,对吧?我认为,
能够不仅仅是,我的意思是,如果你看看英伟达正在做的Earth-2,对吧,我们正在谈论世界上的物理结构。你可以认为地球有很多方面,对吧?就像某种地形,像地球的自然物理特征一样。然后是所有这些,你知道的,我们建造的结构,在其上建造的人造事物。
然后你可以在其上叠加人类活动,对吧?就像我们在世界各地移动,我们的传感器,我们的汽车等等。然后还有其他现象,比如天气,对吧?像潮汐之类的东西需要考虑进去。所以,
Earth-2是英伟达的一个非常有趣的倡议,它关注的是控制现实世界日常天气的系统。如果你了解某个地方的结构和几何形状以及太阳的位置,你就可以预测诸如,嘿,我可以在此处安装太阳能电池板吗?实际上,如果我安装这种配置的电池板,我会得到多少阳光?当你将天气叠加在其上时,事情会变得更加有趣。所以
为了回答你的问题,我认为在实用性和乐趣方面有很多应用。媒体和娱乐显然是在游戏中。我认为下一代GTA绝对会以现实世界的孪生体为基础构建。也许这是最后一个人工构建以模拟现实世界的GTA。我认为这当然令人兴奋。也就是说,许多游戏已经使用了现实捕捉,对吧?从使命召唤到战地前线等等,
但我认为实用主义方面要有趣得多。无论你是在位的世界中做什么,从建造东西到灾难规划,应用范围都非常广泛。
好吧,甚至只是,你知道的,Jensen在今年GTC上展示的一件事是创建这些虚拟世界,然后实际上将虚拟版本的类人机器人放入这些世界中,并对这些现实世界的孪生体进行训练,以便它们知道如何导航现实世界。然后一旦他们获得这些训练数据,他们就可以将这些训练数据注入到真实的机器人中。所以这个概念
创建地球的数字孪生体的概念将使我们能够在实际部署之前,训练许多这些机器人和机器在数字孪生体中运行。对我来说,这里有很多巨大的影响。百分之百。我的意思是,这些……
这是一种创建这些机器和感知模型需要能够导航世界的所有训练数据的方法。对。还有什么更好的方法呢?就像,你可以创建它,你知道的,你可以三维扫描一个街区,然后在上面创建所有这些不同的人类活动场景,并将其提供给,你知道的,并训练自动驾驶汽车,你知道的,自动驾驶人工智能。我认为,
事实上,我们有一个地方,我们可以基本上将现实传送到数字世界,然后也可以将数字世界显现在现实世界中。我认为这座桥梁对于许多不同的应用来说都非常强大。好吧,我想让我们快速谈谈TED。首先,恭喜你做了一个TED演讲,这是一个了不起的成就。你知道,有些人说他们做过TED演讲。他们实际上是在谈论TEDx演讲。来吧,来吧。
来吧。你实际上做了一个真正的TED演讲,一个合法的TED演讲。不仅如此,他们还邀请你主持TED人工智能播客。所以,请告诉我们一些关于这个播客的信息以及正在发生的事情。也许分享一下你在TED的经历,然后告诉我们关于TED人工智能播客的信息。
是的,当然。我的意思是,去年的TED演讲当然是一次有趣的经历。我会说今年的经历更有趣。所以我才有机会与克里斯·安德森共同主持第二场会议,这场会议完全是关于人工智能的。我们有一些令人惊叹的演讲者,比如维诺德·科斯拉、菲菲·李,
你知道的,GitHub的首席执行官,海伦·托纳,OpenAI的前董事会成员。甚至像,我不知道你是否看过她的作品,但像好阿姨一样,绝对是一次旅行。基本上就像,对我来说,星际社交媒体是什么样的。这是一次非常非常有趣的经历。
是的,我的意思是,看看,TED中的T代表技术。我认为现在令人兴奋的是,随着时间的推移,TED发展到不仅包括技术、娱乐和设计,还包括多种主题,对吧?
我认为人工智能作为一种技术,是一种横向的技术,但它正在影响我们日常生活中许多不同的垂直领域,对吧?就像我们可以谈论所有这些应用一样,无论你是一个创作者,无论你是一个知识工作者,你知道的,无论你是一个音乐家,你知道的,无论你是在考虑国家安全和国防,无论你是在考虑人际关系,对吧?
而且通常在所有这些主题中,你知道的,我们作为建设者和消费者必须应对这种二分法。所以TED人工智能节目的理念实际上是概述这些二分法,你知道的,不一定采取某种立场,而是阐述好、坏和丑陋的全部范围,并让大家自己决定
并通过与来自各行各业的人交谈来做到这一点。像那些头衔甚至还没有被发明出来的人。但显然是技术专家、记者、研究人员、艺术家,你知道的,名单还在继续。而且,你知道的,我非常感谢有机会能够,你知道的,将我的兴奋带到这个领域。就像,显然,像,
我想建立,带来一个创意者的视角,就像使用这些工具为超过一百万的人建立了追随者一样,但同时也是一个发布了大量这些东西的产品构建者。然后就像,我会说像谨慎乐观的人工智能爱好者一样。所以我带着这三个视角来处理这些主题。这非常有趣。我们为你们准备了一些非常酷的剧集,我迫不及待地想让你们看看。
你对发布计划有什么想法吗?已经计划好日期了吗?是的,是的,完全正确。5月21日,第一集发布,然后每周都会发布。那里会有短暂的夏季休假。但是,是的,本季有25集。让我告诉你,我认为每个人都会喜欢。是的,我很想知道,TED的整体氛围如何?人们是乐观还是真的害怕人工智能?如果你也看看TED,你会有……
像比拉瓦尔这样的人,我知道那里还有一些其他的演讲者,我认为也许穆斯塔法·苏莱曼也在那里,也许那是最近的一次,是的,但你也有像加里·马库斯这样的人,我会完全弄错他的名字,呃,尤德科夫斯基,哦,是的,至少或者尤多夫斯基,他们都更倾向于,嘿,让我们在人工智能方面冷静一下,所以从演讲者的角度来看,似乎他们对论点的双方都有演讲者
绝对的。我的意思是,今年的主题是勇敢与才华,涵盖了各种各样的观点。我会说,总的来说,氛围是积极的。所以,我喜欢……
我会给你一个样本量。就像我教过这个发现课程一样,它是关于人工智能的二分法的。大约有50个人。我们所做的基本上是查看人工智能领域中的一些垂直领域,并像,你知道的,基本上想出,如果这件事进展顺利会发生什么?如果这件事进展得很糟糕会发生什么?让我们实际使用ChatGPT来想出一个标题,一个简洁的视觉效果,你知道的,对那个理想的和不理想的未来的描述。老实说,像,
房间里的大多数人都对此持乐观态度,对吧?就像,但他们并没有忽视缺点。我认为任何问题的症结在于极端,对吧?所以,你知道的,我们就像,内森,我听到你担心的问题,如果我们像,你知道的,哦,就像我们不能有末日论者一样,你知道的,它就像,它具有传染性。
我认为同样的情况也适用于相反的说法,那就是,好吧,我们显然必须继续加速。我们必须继续发布。我认为这取决于,对吧?就像,这是对这些事情的枯燥答案。我认为除非你剖析所有这些考虑因素的全部范围,否则你无法理解细微之处,并且
所以我试图带来的编辑视角的目标。当然,TED在这方面也有很大的发言权,那就是,看,我60%乐观,70%乐观,这与马特,你和我在大多数事情上谈论的并不太相似。
但我不会对所有这些东西的缺点视而不见,对吧。就像,我认为说出来是可以的。我相信的只是演讲者的选择,你知道的,嗯,我们真的非常努力地让客人的观点保持平衡,这样像,我认为在现实世界中也会发生什么,以及
你将能够听到论证的双方。像那些对人工智能艺术超级兴奋和激动的人,并且认为它非常棒,并且在受版权保护的材料上进行训练完全没问题。那些认为这是我们所知的创造力的终结的人。你必须——是的,我的意思是,我认为听到双方的观点是很好的。我的意思是,我同意,但我担心。就像我以前住在旧金山一样,并且像,
他们现在正在推动监管。我们就像,谁是他们,你的意思是,你的意思是萨姆,政府?是的。好吧,不是,政府,他们就像,他们就像现在正在推动一项法案通过。他们试图像,他们试图快速推进它。我忘了是谁在起草这项法案,但是,嗯,我们基本上,如果你推出一个新的语言模型,需要批准。是的。你就像需要批准一样,而且你必须基本上签署一些东西,如果说这个模型不会造成任何伤害的话,那就是伪证。它就像,
是的,谁会那样做?是的。是的。所以我同意,细微之处很重要。而且,我确实认为自己是EAC运动的一部分,但更普遍地说,就像一个技术乐观主义者一样。你的个人资料中还有吗?我不知道。我没有。我没有。但是,你知道的,我喜欢贝丝。我喜欢所有参与其中的人。这很酷。我认为总的来说。是的。
我认为总的来说,这是对的,你知道的,但细微之处很重要。我同意。让我这样说吧。我认为我看到的情况是,我们有足够多的有才华的人正在推动加速。并且有足够多有才华的人正在推动,你知道的,我会说踩刹车,缺乏更好的表达方式,在某些领域。我认为总的来说,我们会达到……
像某种最佳解决方案一样,因为这些影响。我认为一直都是这样,对吧?就像,
我的意思是,就像音乐的早期一样,每个人都像,哦,是的,Napster和点对点,让我们疯狂起来吧。然后事情平静下来,我们找到了一个有效的商业模式。也许它并不完美,对吧?人们对苹果和Spotify的商业模式有很多抱怨。但我认为我们找到了这个全球最佳解决方案。我的意思是,它并不总是奏效,对吧。他们看看核电站,对吧?就像过去一样,美国将建造所有这些核电站,对吧?
为了解决能源问题,我们没有这样做,是因为法规和恐惧。现在我们正试图解决所有这些全球变暖问题。另一件事是,我们总是可以使用核能,而且它确实有效。所以它并不总是奏效。它经常有效,但并不总是如此。
完全正确。我的意思是,讨论如何规范它是一个很有趣的话题。政客和监管者如何规范这种模糊的技术?这不仅仅是大型语言模型,对吧?比如所有感知人工智能的东西,以及
你知道的,这意味着什么。但是,像这样的一组技术,它们就像渗透并发展一样,我的天哪,就像我现在正在研究的一些东西一样,关于神经科学和人工智能的交叉点,以及我们能够用被动神经接口(如耳塞等)做些什么。我的意思是,将会出现一些真正重大的伦理难题。所以,是的,
是的,我非常努力地想要保持技术乐观主义,但也要保持平衡的视角。我认为人们会喜欢它。我认为,归根结底,重要的是同理心,对吧?我来自的视角是,我倾向于是一个非常有同理心的人,对吧?我想听取故事的双方意见。我想听取不同的观点。我想对双方都抱有同理心,如果。
如果有人真的担心这项技术会夺走他们的工作,我想了解原因。我想了解我们能做些什么来减轻由此可能造成的损害。我总是会从同理心的角度出发,这就是为什么我从未认同过EAC运动的原因。我不一定认为我们应该总是尽可能快地推进一切。
尽可能快地前进。我认为我们应该倾听人们的恐惧。我们应该倾听人们的担忧。我们应该找出某种中间立场。正如你提到的,双方总是有很多人,这会形成一种相当不错的制衡机制,以确保任何一方都不会走得太远,并且,你知道的,
人工智能不会毁灭世界,但另一方也不会走得太远,导致技术发展完全停止。我认为,这些制衡机制总体上是积极的。我认为这些制衡机制是必要的。我总体上同意。但我认为,与EAC的争论要点是,复利是最重要的技术之一
现有的力量,对吧?就像一个想法,如果我们比技术发展得更快,未来的技术就会越来越好。我们将开始解决现实世界的问题,例如癌症以及所有其他我们可能已经解决的问题,如果我们没有那么快地监管一切的话。对。所以我认为人工智能也是一样的。当然。像
未来的一些监管可能是有意义的,但如果我们现在就开始实施,我们将减缓复利和指数增长。我们将通过我们的法规阻止指数增长。我们,你知道的,是的,也许短期内会有一些工作岗位流失,但从长远来看,我们本可以治愈癌症。我们本可以解决全球变暖问题以及所有其他我们本可以解决的问题,如果我们只是等待并看看技术会发生什么。是的,现在有一个大问题。好吧,也许可以改变一下法规。
但不要一开始就那样做,就像他们现在试图做的那样。我的意思是,印度完全改变了他们的决定,对吧?最初他们说,哦,你必须让每个模型都获得批准。他们说,实际上,我们将撤回这部分内容,这非常有趣。我的意思是,就像法规一样,它最终可能只对现有企业有利,比如最大的AI实验室,对吧?就像监管俘获一样,观点是,
它最终可能导致任何来自初创公司的创新都无法实现。而那些获得这些繁重的合规要求的人却负担不起律师团队,除非他们得到了风险投资的支持。然后,这是一种低效的风险投资使用方式,你没有进行创新,而是像在高度管制的行业的法律环境中航行。所以我认为你关于核能的观点也很有道理。就像,
我的意思是,包括加里在内,很多人举了这样的例子,你知道的,就像基本上航空旅行和飞机受到严格监管。但我们却发生了波音丑闻,对吧?就像你有一个非常大的现有企业。监管机构和波音之间可能存在人员流动。当莱特兄弟开始的时候,我的意思是,他们并没有受到严格的监管,因为他们正在发明飞机。是的。
他们在俄亥俄州,你知道的,只是尝试各种东西。所以,我的意思是,我认为有一点是很多人谈论的,就像技术日落一样,法规也需要日落,而不是我们不断增加更多的法规。所以我认为这就是事情变得地缘政治的地方。我认为中国在人工智能监管方面比美国现在要精明得多。我为政客们感到难过。我认为他们正在寻求这种参与,并且
我认为如果我们参与其中,并提出这些观点,这将是一件好事,而不是,我不知道,只是说监管不好,创新好。让我们继续创新。所以它很细致。但话又说回来,你看,我一直都是天秤座,并且,你知道的,试图在两个世界之间架起桥梁。
是的,不,我的意思是,我认为,嗯,这是一个非常细致的对话,这本集的轻描淡写。我认为当涉及到监管问题时,有很多不同的兔子洞我们可以潜入。我认为你必须成为我们经常出现的嘉宾之一,也许每隔几个月就来一次,一起讨论这些事情。但是,嗯,我
我想给你一个机会,让你告诉我们你还在做什么。如果你认为人们应该去查看你的地方,你的推特,你的YouTube,当然还有5月份晚些时候推出的TED人工智能播客。是的。所以请关注我的推特。你也可以在YouTube和TikTok上关注我,用户名是Billy effects。嗯,
如果你对我的长篇阐述感兴趣,请查看Creative Tech Digest。它既是一个新闻通讯,也是一个YouTube频道。是的,当然,请查看TED人工智能节目。也许最后我要说的是,如果你在这个领域是一位创始人或建设者,正在使用我们讨论过的任何技术进行建设,
并且你正在寻找早期投资。我也是A16Z Games的侦察员。所以请在推特上联系我,或者你可以给我发邮件。我们也会在节目说明中添加邮箱地址。非常感谢你们邀请我参加,祝你们的播客一切顺利。马特,我会在IO见到你。内森,我希望很快在3D空间见到你。
来京都吧。来吧。我必须做到这一点。太棒了,比拉瓦尔。这真是一次爆炸性的经历。这是我们迄今为止进行的最喜欢的对话之一。我很高兴下周能亲自见到你。酷。干杯。