We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Authoring Creativity With AI: Researcher Patrick Hebron

Authoring Creativity With AI: Researcher Patrick Hebron

2024/6/12
logo of podcast Me, Myself, and AI

Me, Myself, and AI

AI Deep Dive AI Chapters Transcript
People
P
Patrick Hebron
S
Sam Ransbotham
Topics
Patrick Hebron: 本书探讨了机器学习与设计的交叉领域,机器学习可以帮助设计师解决复杂的配置问题,但其固有的不精确性对软件设计提出了挑战,需要设计师重新思考用户体验,尤其是在软件出现错误或误解时。应对AI系统不确定性的方法包括:当AI系统失败时回退到传统功能;让机器向用户展示其理解的内容,避免基于误解采取行动。AI工具的可发现性也是一个挑战,与传统软件的菜单系统相比,AI工具的功能可能隐藏更深,难以找到。基于归纳学习的AI系统,其结果存在不确定性,因为永远无法保证已经考虑了所有可能性。作者的背景是哲学和电影制作,这让他对设计工具和AI的结合产生了兴趣。作者学习编程是为了创建设计工具来制作电影,这让他对设计工具和AI的结合产生了持续的兴趣。AI可以通过改进现有工具的功能,在不改变用户体验的情况下提升设计效率。Adobe的内容感知填充功能就是一个例子,AI可以通过神经网络修复技术来改进其功能。AI带来了一些前所未有的设计能力,例如从文本生成图像或重新摆放人体姿势。潜在空间导航是一种强大的设计机制,它允许用户在机器学习模型的内部表示中探索和发现新的设计可能性。成功的工具应该能够被用户以意想不到的方式使用,而不仅仅是按照预期的方式使用。Minecraft中构建8位计算机的例子说明了开放式工具的价值,用户可以利用工具创造出意想不到的结果。AI的应用范围正在不断扩大,从最初的垃圾邮件分类到现在的创意领域,甚至可能扩展到科学和工程领域。AI可以帮助人们更好地进行设计和工程工作,就像艺术家在创作过程中不断调整和完善作品一样。AI有可能在科学和工程领域发挥变革性作用,帮助人们解决复杂的问题。AI不一定是零和博弈,它可以与人类合作,共同解决复杂问题。将AI应用于科学领域的一个挑战是模拟所作用的系统。无所不知的AI也存在缺点,它可能缺乏独特的视角和观点。通过强化学习和人类反馈来训练语言模型,可以使模型更具个性化和观点。 Sam Ransbotham: AI工具的用户界面设计面临挑战,需要在向用户展示新功能的同时避免信息过载。AI工具的用户界面设计需要在熟悉性和开放性之间取得平衡。

Deep Dive

Chapters
Patrick Hebron discusses the integration of generative AI in creative fields, emphasizing its potential to elevate human creativity and the challenges of designing user-friendly interfaces.

Shownotes Transcript

今天,我们播放的是由我们的朋友 Modern CTO Podcast 制作的一期节目,他们最近很友好地邀请我作为嘉宾。我们讨论了生成式 AI 的兴起,技术成功的意义,以及领导者在指导技术实施工作时需要考虑的一些因素。您可以在 Apple Podcast、Spotify 或您收听播客的任何地方找到 Modern CTO Podcast。

生成式 AI 在创意领域的应用如何转化为未来的机遇?在今天的节目中找出答案。我是 Patrick Hebron,著有《设计师的机器学习》,您正在收听《我和 AI》。欢迎收听《我和 AI》,这是一档关于人工智能和商业的播客。在每一期节目中,我们都会向您介绍一位在人工智能领域进行创新的个人。我是 Sam Ransbotham,波士顿学院分析学教授。

我同时也是麻省理工学院斯隆管理评论的 AI 和商业战略客座编辑。

我是 Sherven Kodubande,BCG 的高级合伙人,也是我们 AI 业务的领导者之一。麻省理工学院 SMR 和 BCG 自 2017 年以来一直在研究和发表关于 AI 的文章,采访了数百名从业者,并对数千家公司进行了调查,了解构建、部署和扩展 AI 能力以及真正改变组织运营方式需要什么。

大家好。今天,Sam 和我很高兴能与 Patrick Hebron 谈谈。他是《设计师的机器学习》一书的作者,曾在 NVIDIA Omniverse、Stability AI 和 Adobe 工作过。Patrick,感谢您抽出时间与我们交谈。感谢你们的邀请,很高兴来到这里。我必须马上说,我很想知道为什么机器学习对设计师来说有所不同。这其中的“对设计师而言”是什么意思?

当我写这本书的时候,这对大多数人来说并不是一个非常合理的交叉点。所以我从硕士研究生时期就开始研究这个交叉点,我开始认为,在设计中可能存在非常具有挑战性的配置问题,机器可以帮助人们找出如何筛选大量不同的排列组合,并找到对人们有用的安排。这就是当时我自己的工作中发生的事情。

然后,随着技术的飞速发展,在我看来,由于 AI 的出现,我们将对软件的生产方式产生一些非常大的差异。传统的软件在诸如 2 加 2 等普通的事情上总是正确的。

当然,机器学习使您可以做更复杂的事情,例如识别照片中的人脸或数百万件事情。但它并不总是对这些事情正确。这其中存在着固有的不精确性。而仅仅是这一事实,当您设计软件、考虑用户如何浏览流程以及尤其是在他们遇到死胡同或误解时会发生什么时,就会产生巨大的影响。

O'Reilly 找到我,让我写这本书,我非常高兴能处理这个主题,并开始帮助设计师思考这将如何改变他们的实践。这是一种根本不同的方法,因为我们习惯了软件是确定性的。我们习惯于流程每次在实验室中测试时都以相同的方式工作。但是当……

您将噪声和模糊性引入整个过程中时。那么,人们如何应对他们测试和处理的内容在投入生产时并不一定发生的情况呢?是的,这很有趣,因为……

我不想把机器学习模型比作人,但我想我们与它们的一个共同点就是这种不精确性。我们有能力进行宏大的构想,但你永远无法保证别人头脑中的东西与你头脑中的东西完全一致。是的,我发现大多数人和我所想的并不一致。对,我也是。

所以,要记住仍然存在传统的软件,对吧?因此,当更复杂的 AI 系统出现故障时,制定备用计划或恢复到传统功能是一种缓解措施。当然,这其中也存在一个挑战,那就是如果你的软件所做的事情首先需要 AI,那么回退可能很困难,因为传统的软件无法胜任这项工作。

但是让机器向用户呈现它所理解的内容,我认为非常重要。因此,它不会仅仅根据误解自行采取行动。另一个挑战是可发现性。我们在 Alexa 上看到了这一点,对吧?

有很多功能,但它们隐藏在某个地方。那么,你怎么知道你能做什么或不能做什么呢?我认为,在某种程度上,这与传统软件相比是一种倒退。巨大的菜单系统一直是我职业生涯的敌人,我想。但与此同时,它们确实有一定的优势,那就是

学习软件的功能有一个明确的路径,对吧?因此,您可以找到当前需要的特定功能。您可以在此菜单系统中找到它,它可能与一些相关功能相邻。因此,这至少让您看到了它们的名称,也许这会促使您去探索它们。例如,对于新兴的功能集或与您的计算机对话并索取某些东西的能力,您并不一定具备这种能力。

这是一个有趣的维度。我还没有真正想过这个问题。但当你说到这一点时,我想起了我过去的生活。过去有一款名为 Microsoft FoxPro 的产品,它是早期的数据库系统之一。当时,我非常热衷于了解这件软件可以做的所有事情。我们所做的一件事是,我们打开了可执行文件,寻找其中存在的命令签名,即使这些命令不在文档中。

但这已经不存在了。我的意思是,你在这里谈论的世界非常不同。没有可执行文件可以打开。甚至通常也没有文档可以查看。所以,你知道,所有东西同时快速发展似乎非常令人着迷。我还没想过这个问题。

是的。你所说的内容还有一个狡猾的点,那就是,你知道,软件可以针对某种特定类型的查询一次又一次地工作。然后,第 1000 次,它没有正确理解。它完全朝着不同的方向发展。我认为这只是归纳学习的本质,你永远无法保证

你已经看到了所有可能的事情,对吧?例如,通过从经验中学习,我们看到两辆车,现在我们对汽车尺寸的范围有了一些了解,对吧?我们看到一百万辆车,现在我们很有信心,我们对汽车可能的大小范围有了真正的了解。但我们真的永远无法保证我们已经看到了最大或最小的汽车,对吧?

这种边缘的模糊性是一个挑战,但同时它也赋予了我们 AI 的其他一切。是的,这也很吸引人。再说一次,我还没有真正想过我们是如何经历这个归纳过程的。Patrick,你是如何对这类问题产生兴趣的?你能多告诉我们一些关于你的背景信息吗?

我的道路实际上可能有点不寻常。作为一名本科生,我学习哲学,特别是美学和符号学,然后还辅修了电影制作。在我的电影制作工作中,我最终制作了一部叙事电影,所以与这项工作并没有什么联系。在我的哲学工作中,我非常感兴趣,特别是美国哲学家查尔斯·皮尔斯,一位研究科学理论的符号学家,

在这个项目中,我谈到了特效,本质上是一种艺术媒介,思考了一种媒介的含义,在这种媒介中,您有能力描绘任何可以想象的东西,就像在绘画中一样,但具有摄影的明显可信度。这种组合是一种非常有趣、强大,甚至可能是危险的事情。

当时,我正在想象这将如何通过计算机图形学的进步而结合在一起。那时人工智能并没有在我的雷达上。而且,它距离达到那种能力还有很长一段时间。但这对我来说真的很有趣。所以当我大学毕业后,人们说,你会推荐什么类型的电影与你所说的内容相符?我说,我不知道有什么电影真正制作过,真的。它符合这个描述。

所以,你知道,我开始尝试制作那些电影。很快,这让我觉得,现有的 CG 制作工具并不适合我想要做的事情。所以从小我就做过一些电子实验,也做过一些编程之类的事情,但不多。所以从那时起,我开始学习如何编写软件,基本上是为了构建这些设计工具,以制作我试图制作的电影。

然后很快,你知道,我意识到那才是我的真正兴趣。思考设计工具,特别是 AI 和设计工具如何工作,成为了我的中心兴趣。这种兴趣已经得到了回报。也许可以告诉我们一些你过去参与过的项目。当然。在写完 O'Reilly 的书后不久,我……

被 Adobe 邀请。当时,研发和设计的副总裁们正在交谈,他们正在预测未来几年人工智能将会出现的情况。他们可以看到,人工智能可以在 Adobe 产品的底层发挥作用,并改变质量和能力,而无需以任何特别有意义的方式改变用户体验。

一个例子可能是内容感知填充。在过去几年之前,此功能是使用一种模式扩展算法实现的。

所以,你知道,如果你想从沙滩上移除一个沙滩球,这会很好用。因为当然,沙子是一种可以很好地扩展的模式。所以,你知道,它很有效。但是,如果由于某种原因,你试图填充人脸缺失的嘴巴区域,那么扩展脸颊当然不会给你想要的结果。因此,使用神经修复,

你可以做得更好,因为当然,你是在从大量的统计样本中学习在那里应该画什么,这些样本说明了这些不同的图像特征是如何相互关联的。因此,当然,你可以获得更好的功能。但从用户的角度来看,此工具不需要以非常不同的方式运行。

这将是 Adobe 易于将其集成到其产品中的内容。更困难的事情是我们现在开始看到的事情,这些事情没有真正的直接前身,因为以前的科技根本无法接近它们。给我们举一些例子吧。哦,当然。例如,能够根据文本生成图像或完全重新摆放人体姿势。

也许我应该在回答你的问题时谈到的另一个领域是潜在空间导航。在机器学习模型的内部,它会产生对其所看到和学习的事物变化的一种内部表示。

然后可以对该空间进行线性遍历。在这个空间的一部分,你可能会看到看起来像运动鞋的东西,然后在附近,你可能会看到看起来像工作靴的东西。然后,你知道,很远的地方,你可能会看到看起来像,我不知道,泰迪熊的东西。所以,你知道,从一个到另一个的导航是

这是一个你可以探索和发现你正在寻找的东西的过程。这可能是一个非常非常有用的设计机制,因为这就像,这不太对,但我想要一些接近的东西。能够查看它并在这个空间中移动,它确实降低了设计中探索和实验的门槛,而在传统情况下,你可能画了一双运动鞋,现在你想尝试一下工作靴。你必须完全重做你的整个图纸,这是一个

一个非常复杂的过程。这是一个非常强大的功能。但当然,这种思考设计事物的方式是……

也许没有先例。因此,思考这些界面的外观是一种全新的设计练习。这似乎也很有趣,因为如果你回到你的生成式填充,是的,很清楚的是,嘿,我只是想填充这个区域,你可以使用新的算法来做得更好或更强,更快,更快捷地通过一些 MLMAC。但是,对于某些其他工具或某些其他工作方式,用户界面中没有类似的比喻。所以

这似乎很难让用户,你知道,最终,那里坐着一个人。你如何让他们知道他们可以扭转一个人,或者他们可以在空间中移动某些东西,或者他们可以让一只鞋看起来像工作靴,或者将它们移向泰迪熊光谱?如何在不让他们不知所措的情况下,在界面中让他们知道这一点?

是的,这是一个很好的问题。这很有趣,因为我对这个问题的看法是完全相反的。一方面……当存在张力时,这总是很有趣的。没错。你需要设计中的张力,尤其如此。

一方面,正如我刚才暗示的那样,如果你有熟悉的东西,那就利用它。如果某个相关领域存在某种比喻,那么为什么不帮助用户适应它呢?例如,在潜在导航的情况下,这可能看起来很像地图,对吧?运动鞋和工作靴等这些目的地,对吧?你可以把它们想象成存在于一个表面上。如果你有点

如果你想走到海滩,那就往西开一点,或者如果你想走到这种类型的鞋子,那就往这个方向开一点,对吧?所以,你知道,我认为这些线索非常有用。与此同时,我认为你必须小心,因为你知道,艺术媒介或设计媒介是一种媒介本身的特性将对输出的性质产生巨大影响的媒介。回到艺术理论家克莱门特·格林伯格,

他基本上说,你不应该制作一件本来应该是绘画的雕塑,以缩短这种说法。我认为同样地,你也不想让人们永远都以与使用 AI 之前的 Photoshop 相同的心态来使用 AI 进行艺术创作。我认为

你想尝试培养某种开放性。当然,用户最终会为你完成大部分工作。因为一般来说,我认为一开始他们会做的事情与之前的范式非常接近,对吧?就像电影编辑工具确实借鉴了像 Steamback 桌面电影编辑器一样。你知道,同样地,AI 生成一开始看起来非常接近人们使用上一代工具所做的事情。

然后他们开始向外探索。所以你不想妨碍的是他们向外探索的能力。对我来说,作为工具的创造者,最重要的事情是,我们在商业环境中总是谈论用例、用户需求和用户痛点。我们试图制定经过充分研究的工作流程,以了解用户想要做什么。

但我总是觉得,如果工具的使用完全符合我们的预期,那么我们就真的失败得很惨。我认为人们使用软件最有趣的事情是那些处于其预期用途边缘的事情。

我喜欢举的一个例子是人们在 Minecraft 中构建 8 位计算机。从实际的角度来看,这有点疯狂,对吧?我的意思是,显然,这是你可能产生的处理器模拟最无效的方式之一。但与此同时,它太棒了,对吧?这太迷人了。

实际上,你能回去解释一下吗?我想我们所有的孩子都非常了解这是什么。但也许可以解释一下 Minecraft 中的 8 位处理器,也许是为了那些不知道的人。是的,当然。Minecraft 是一款低保真外观的,我想你可以说,积木式开放世界游戏。

在游戏中,用户可以放置这些积木或移除积木。大多数积木是静态的,就像代表混凝土之类的物体一样。但也可以有水块、流体和动态系统。这意味着你可以移动空间周围的积木。

因此,您可以模拟数据流。因此,实际上有可能模拟电子如何在芯片中移动。因此,您可以构建本质上是一种计算机处理器的仿真。因此,在这样的环境中进行的这类项目对我来说,是一种开放式工具的最佳体现。你在这里遇到的很多事情是

我将把它放在探索开发的框架中,你想要让这些增量改进变得容易,因为这是在沙滩上填充沙滩球。另一方面,你还想支持做一些疯狂的事情的能力。看起来你谈论的大部分内容都在视觉设计的领域。这种张力在其他地方也会发挥作用吗?我们还有什么其他的方式……

我们一开始使用机器学习来对垃圾邮件进行分类,是或否,1 或 0,是或否。这是垃圾邮件吗?这是欺诈吗?现在我们正在谈论填充嘴巴和脸部。这种设计将走向何方?我们还可以使用这些工具来设计什么?在过去的两三年里,我们看到 AI 在创意领域的应用真正爆发。

也许在我们的教育体系中,我们已经看到了艺术与科学之间,或者设计与工程之间,或者艺术与科学之间(无论你喜欢什么)的过于明显的对比。我将使用一个艺术示例,因为我认为在这里更容易讨论。但是,你知道,如果你想说,画一幅人脸肖像,我认为大多数艺术家都会说,试图说,直接画鼻子是不对的。

在继续处理面部的下一个特征之前,要达到完全的分辨率和细节。相反,最好是先规划一下,好的,鼻孔大约在这里和这里,两只眼睛大约在这里和这里。现在我们退一步,看看整体画面。好的,这些看起来彼此之间大致正确。好的,现在我们开始深入其中一个特征并添加一些细节,也许是一只眼睛,对吧?

好的,但现在我们回到大图视图,我们意识到,你知道,眼睛现在看起来很棒,但它与鼻子的比例有点不对。所以我们必须调整它,对吧?所以我们总是不断地在这些不同的考虑之间来回移动。我认为这在软件工程或科学工作中也是如此,我们必须根据彼此重新调整所有部分,然后总是回到这一切如何组合在一起。

如果你考虑一种能够从第一性原理进行推理的技术,它不仅仅是阅读我们关于疾病的书籍。它可以从头开始进行反复试验,并以这种方式提出解决方案。当然,这在科学领域将具有开创性,并且可能让我们了解我们所有盲点。因此,从流程的角度来看,我认为我们可以从设计工具以及我们如何思考工程和科学工具中学到很多东西。

我认为我们正处于 AI 在这些领域发挥非常非常变革性作用的边缘。我对此特别兴奋,因为

在我看来,许多人自然而然地对 AI 在世界中扮演的角色感到担忧。我认为,如果你看看它今天嵌入消费产品中的情况,很多情况都感觉非常像对人类角色的替代。这个东西可以为你写一篇论文。这个东西可以为你画一幅画。所以它看起来像是进一个,出另一个。

但是,你知道,它不一定是零和博弈。特别是当我们考虑药物发现或治愈疾病等问题时,没有理由不想要更多帮助。我认为这可能是一个非常正和博弈,我们利用这项技术来帮助我们在我们无法处理可能性空间复杂性的领域。

我们当然是由设计来引导它走向某种东西的人。对。所以我认为动机,如果可以的话,是来自我们的。但人工智能可以在我们如何到达那里方面发挥非常重要的作用。

那么,是什么让它变得困难呢?这一切听起来都很棒,但我们都知道这并不容易。是什么让它变得困难呢?公平的问题。一件实际上一直是科学应用中真正问题的的事情是模拟我们正在作用的系统的能力。如果我们看看强化学习,例如 DeepMind 将其应用于围棋和国际象棋等游戏,

这些游戏很容易模拟。它们的规则并不特别复杂,因此当然可以完全模拟游戏。所以,你知道,强化学习系统,基本上是一种学习系统,其运作方式类似于你训练狗的方式,如果它采取正确的行动,你就给它奖励,如果它采取错误的行动,你就给它惩罚。对于机器学习模型来说,这是一个数值奖励,而不是食物,但基本思想相同。

这些类型的系统能够导航天文数字般庞大的可能性空间。围棋中的可能性空间比宇宙中原子数量还要多。在围棋中,你只需要在计算机内部进行数百万甚至数百万次游戏。我想到现在的大型语言模型,这些模型阅读的内容比我一生中阅读的内容还要多。我的意思是,从根本上说,他们吸收的语言信息

比我一生中,比任何一个人一生中都多。

你知道,我在很多写作方面都超过了它。所以那里一定有一些缺失的环节,我们还没有完全掌握。也许是支架和转移构成了其中的一部分。这是真的。你的观点让我想到了一些我发现非常非常有趣的事情。如果过去几年人工智能没有发生,我根本不知道的事情,那就是无所不知实际上有一些缺点。

我很清楚这一点。事实证明,阅读所有内容实际上可能是一种变得没有主见或没有真正拥有世界观的方式。所以,你知道,这个过程被用作语言模型训练的一部分。

称为 RLHF,代表来自人类反馈的强化学习。它用于多种目的。其中之一是让模型以更具对话性的方式说话,而不是自动完成的方式,它会为你结束句子。

从用户体验的角度来看,这很重要。但它也有助于使模型具有视角,以了解什么是好的答案。这个过程的工作方式基本上是,你拿一个已经经过大量训练的模型。你

给它一个提示,你知道,某种查询。你要求它生成多个回复,然后你让人类对他们认为哪个答案更好进行评分。因此,这可以,你知道,帮助调节诸如回复的冗长程度、健谈程度、友好程度或不友好程度等内容。但它也具有使模型的视角单一化的作用,对吧?所以它不是从各个角度看待一切,这相当于从任何角度都不看。

这是一个有趣的类比。鉴于你的无所不知,让我过渡一下。我们有一个环节,我们会尝试提出一些快速的问题。所以我们只是在寻找你脑海中首先想到的东西。你认为现在人工智能最大的机遇是什么?推进科学。人们最大的误解是什么?人类没有未来。你想要的第一份职业是什么?

- 你知道,当我五岁的时候,虚拟现实第一次出现,我对此非常兴奋。我认为这很酷,并且会用铝箔制作 VR 耳机的复制品。不是功能性的,只是设计。所以 VR 设计师真的是我第一个主要的职业愿望。- 什么时候人工智能太多了?- 这是一个很好的问题。

当我们达到我们不再有动力去尝试自己让世界变得更好的地步时,如果我们失去了与它的联系,那么人工智能能够做到这一点就没有意义了。好的。那么,你希望人工智能现在能为我们做些什么,而它现在还做不到呢?

这很有趣,因为在我的生活中,我对事情感到很满意。我不觉得,哦,有什么能力缺失。所以我对这项技术感到非常兴奋,但与此同时,这几乎是为了看看什么是可能的,而不是觉得有什么缺失,但也许更具体地说。

你能在 Minecraft 中构建一台 8 位计算机吗?没错。没错。是的,我想这是一种智力上的征服。但是,不,我的意思是,拥有家用机器人会非常酷。

这真是太迷人了。我不敢相信我们涵盖了这么多主题。我认为你真的让我对设计的潜力大开眼界。我的意思是,到目前为止,我们在设计方面已经做了很多,但潜力确实非常吸引人。感谢您今天抽出时间与我们交谈。非常感谢您邀请我。这真是令人愉快的谈话。一次如此有趣的谈话。

感谢您的收听。下次,我和Sam将与Meta人工智能研究副总裁Joelle Pinault一起结束第九季。请加入我们。

感谢收听“我和AI”。我们相信,与您一样,关于AI实施的对话不会仅限于此播客。这就是为什么我们在LinkedIn上专门为像您这样的听众创建了一个小组。它被称为“AI领导者”。如果您加入我们,您可以与节目创作者和主持人聊天,提出您自己的问题,分享您的见解,并了解更多关于AI的信息。

并访问来自MIT SMR和BCG的关于AI实施的宝贵资源,您可以访问mitsmr.com/AIforLeaders来访问它。我们将把链接放在节目说明中,我们希望在那里见到您。