订阅:RSS | iTunes | Spotify | YouTube
主题:深思熟虑 凯文·麦克劳德(incompetech.com)
<raw_text>0 你好,欢迎收听Skynet今天的《让我们谈谈AI》播客,在这里你可以听到AI研究人员关于AI实际情况的讨论,以及什么只是点击诱饵的标题。我是安德烈·克伦科夫,斯坦福视觉与学习实验室的三年级博士生,也是本集的主持人。在这一期访谈中,你将听到埃米尔·沃尔纳的声音,他是一位互联网教育背景的独立机器学习研究员,同时也是谷歌艺术与文化实验室的驻地研究员。
作为谷歌的驻地研究员,他利用机器学习探索艺术和文化。同时,他还兼职将机器学习应用于编程和数学等逻辑任务。非常感谢你,埃米尔,抽出时间参加这一集。太酷了,是的。谢谢你,也谢谢你提醒我。
我很高兴能有你。为了开始,想邀请你来参加的一个令人兴奋的事件是你创建了这个项目MLArt.co,这是一个展示创意机器学习实验的平台。也许你可以给我们快速概述一下这个项目是什么,以及是什么激励你去创建它。
是的,不是的。所以它最初是一个研究项目。我在做研究以确定下一步该做什么。我认为我对创意机器学习领域有一个相当好的概述。但我开始在谷歌表格中列出这个清单。当我列出几百个项目后,我意识到,哇,我只知道大约10%或20%的人在做什么。然后我意识到,这可能对其他人有用。所以...
然后我决定把它变成一个网站。所以我开始搜索无代码网站,因为我不想花太多时间开发实际的软件。我找到一个网站,我基本上可以将电子表格转换成一个网站。
那时我觉得这非常有用,因为你可以获得一个可视化的概述,还有描述。由于我有所有这些类别和一切,从一开始就相对容易导航。太棒了。是的,所以听众们,在你们收听的时候,如果有时间,你们可以去访问MLArt.co,亲自看看。
它基本上是一个大型策展,展示了人们如何使用AI进行创意目的,通常是艺术。你可以看到人们所做的不同事物的网格。所以我很好奇,当你开始时,你发现了哪些对你来说是新的东西,以及你预期和已经熟悉的东西是什么?所以我认为我看到的新事物是
一般来说,我对一些关键类别是熟悉的,但在这些类别中有很多项目,还有很多我不知道的不同技术。例如,拉菲内克·阿纳多尔,他有一些非常可爱的动画。但首先,我并不真正知道底层发生了什么。但大部分是基于使用生成对抗网络(GAN)来产生
对不同数据集的插值。然后他使用3D动画软件,如Houdini,来创建这些非常可爱的可视化效果,可以高质量地投影在建筑物上。还有其他项目,例如,欧文·德雷西安和玛丽亚·瓦尔斯帕宁,他们在沙粒上使用面部识别。
所以他们有一个机器人手臂,拿着不同的沙粒,观察并拍照。如果它识别出面孔,它就会将其添加到收藏中。因此,他们有一些看起来奇怪的沙子人,我觉得这非常可爱。还有一个我不知道的产品,算是一个小众项目,也有不同种类的机器人。
所以,朱兹·卢有一个机器人,它拍照,所以这是一个图像到文本模型,它将CNN特征转换为RNN特征,并且它生活在海滩上。所以它在看海洋和沙滩,然后将这些图像转换为文本。然后在这个小机器人内部,它有一支铅笔,在沙子上画这些诗,然后它就移动。我觉得这非常富有诗意和美丽。
绝对是的。是的,我认为这个网站有数百个独特的例子,每一个都非常不同。看到有多少独特的东西非常有趣。在创建电子表格和这个网站之后,我很好奇
你是否有某种高层次的分类来对所有这些进行分类?是否有三、四或五种离散的方式,人们使用AI进行艺术或创意?
我会说,我们拥有的许多艺术学科,通常在机器学习中都有相应的类别。我认为最基本的类别是视觉、语言、音频、运动、用户界面和工具。因此,如果你看视觉,这是目前最流行的,你会看到风格、生成对抗网络和一阶运动。这些是目前最流行的三类。
然后你在视觉和语言中有很多小的子类别。
我们看到OpenAI的GPT-2和GPT-3仍然有很多LSTM被使用。如果你查看网站上的踪迹,那里大约有370个项目。你可以按创建时间进行分类。如果你对它们进行排序,你会看到在早期,更多的是马尔可夫链、LSTM,然后你可以看到质量随着时间的推移而提高。
如果你看声音,它没有视觉那么流行。因此,我们还没有在声音中看到生成对抗网络的时刻,我仍然对此抱有希望。因此,我们可以看到视觉确实发展出了一种新的美学,以及许多在机器学习进入艺术领域之前不存在的新事物。在声音方面,有一些例子
例如,谷歌最近开发的最新项目叫做DDSP,差分数字信号处理。这是当你可以将狗的声音转换为小号的声音。
我认为这有很大的潜力创造新声音,就像生成对抗网络创造了新的美学一样。我认为WaveNet和变分自编码器在声音合成方面也有潜力,尽管我们还没有看到它们真正起飞。
另一方面,这种声音可以分为两类,我会说。一类是创造声音本身的行为,另一类是组织歌曲。这可以是旋律。这些旋律通常是在MIDI文件中构建的。因此,这些通常是使用语言模型如LSTM构建的。
但我认为有时很难真正理解这些歌曲中的新颖之处。你需要对音乐有非常深入的理解才能真正欣赏其中的内容。我认为在运动方面,目前最流行的是PostNet。因此,我们看到很多有趣的舞蹈实验。
所以玛雅·曼做了很多非常有趣的实验,她在镜头前跳舞,然后你会看到单词弹出,她用它们创作诗歌和各种有趣的东西。然后在网络体验和用户界面方面,早期,比如五、六年前,UMAP非常流行,因此将大量高维数据变得可供很多人访问。现在我们看到越来越多的是许多API,尤其是像Runaway ML这样的工具,因为它们暴露了这些不同的模型,人们可以与之互动。我们在用户体验方面看到很多创造力。
另一个例子是Basenet。西里尔·迪琼在谷歌艺术与文化实验室也做了一个应用程序,你可以拖放任何东西。因此,你可以拍一张树的照片,它会提取树,然后你可以将其放在屏幕上。这样的事情变得越来越流行。在物理工具方面,
我们看到很多自动分类器可以做很多有趣的事情。
一个基本的例子是你坐下并按下一个按钮。它拍100张照片。你站起来,它拍100张照片,然后它自动创建一个分类器,然后你可以关闭灯光或用这些自动设备创建游戏。是的,正如你所说,这些应用程序的初期阶段非常有趣,整个事情相当新兴。
实际上,只有视觉艺术和生成对抗网络已经发展得相当多,看到它们在过去几年的进展非常有趣。因此,我很好奇,经过整理电子表格和这个网站后,你对机器学习与艺术的交集的看法是否有所改变?你从这个项目中学到了什么新东西吗?
所以我认为我意识到的第一件事是,有这么多我不知道的事情,了解它们并深入细节后,我能够创建一个词汇。因此,我可以将我看到和学习到的所有内容应用于新项目。我发现创意应用非常有用的原因是,你实际上可以看到它在实践中有效。通常论文可能会过度拟合于小数据集,因此很难理解它是否真的有效。但是一旦你看到其他人使用这些模型并创造出创意应用,你至少可以知道有一些好的技术可以应用于其他问题。
我认为我看到的另一个事情是,查看很多项目时,它们往往非常难以理解。我认为这是艺术语言和技术语言的混合。一旦你将它们混合在一起,它们都可能令人困惑。但通常,这些项目非常有趣,但你有时需要花费20、30分钟或几个小时才能理解一个项目。
因此,我认为一般来说,给做这些项目的人一个快速反馈,当我了解一个项目时,我首先想了解发生了什么,也许用一两句话,这样你就可以对技术和你希望实现的目标有一个感觉。然后你可以在创意应用或叙事和技术方面添加更多上下文,以便...
添加更多上下文。这非常有趣。是的,我确实一直在努力跟上艺术应用的步伐,通常这听起来像是一种自制的方法。因此,很难弄清楚他们是如何做到的。看起来很棒。因此,能够有一个汇编并能够浏览词汇,正如你所说,这非常酷。
我很好奇,在整理这个过程中,你是否与从事这些工作的社区有更多的互动?他们是否喜欢这个项目?是否有人评论说有这样的东西真好?或者其他人评论,类似的事情?是的,不,我在这个过程中联系了我在网站上列出的所有艺术家,我得到了非常热烈的回应。我认为...
我认为这是一个大多数人直到看到网站才意识到的问题。我认为NeurIPS创意工作坊每年都会很好地总结项目。但在过去的10、20年中没有更大的背景。而且找到特定项目也可能很困难。
我认为这也是我遇到的一个问题。我想,这是一个可爱的想法和项目,但我记不起来是什么。我也不知道该Google什么。但一旦你有了网站和类别,找到这些你忘记的宝藏就容易多了。
确切地说。是的,对我来说,我非常欣赏这种创造力。因此,能够浏览并看到许多我没有遇到过的作品,因为有时它们相当小众。这确实有很大帮助,正如你所说。我很好奇。等一下,抱歉,我忘了我的问题。让我。哦,是的。
我很好奇,实际上,你有没有网站上的任何最爱?也许有一些在你记忆中非常酷或意想不到的东西?
所以我认为有,我喜欢很多艺术和创造力。但如果我必须选择其中几个,我会说我发现一个趋势非常迷人,那就是合成统计。特伦斯·布罗德做了一个艺术项目,他创建了一个没有使用任何数据的生成对抗网络。
所以我们只是有一个启发式的方法来理解生成器和判别器如何协同工作,他从中创造了这种视觉艺术。我认为这在很多方面都非常有趣。一个是从第一原理的视觉概念,因为我们所处的世界是由某种统计数据创建的。但我认为有趣的是,设想一下,如果你可以从零开始创建一种新的视觉统计,它们会是什么样子,它们会与我们现在所经历的不同吗?这不仅可以应用于视觉,还可以在
语言或音频中创造类似的体验。我知道乔尔·西蒙,运行Artbreeder,他也做了一个有趣的项目,他发明了一种视觉语言。因此,它本质上是一个变分自编码器。在中间,它有视觉元素,可以可视化两个模型之间的通信。
我认为我非常感兴趣的另一个领域是细胞自动机。因此,亚历山大·摩根斯坦创建了DeepRing,我也觉得非常迷人,但他最新的项目是基于细胞自动机的。如果你不熟悉细胞自动机,你可以想象生命游戏。你有这些规则系统,创造出非常可爱和复杂的图案。
亚历山大将这个想法应用于CNN和基于梯度的方法。你最终得到一种细胞状的设计,因此你可以移除设计和艺术作品的一部分,并重新构建它。我认为这种重建和有机设计的想法非常有趣和吸引人。
我认为我感兴趣的最后一个领域是修复。因此,我认为最近你有Art Breeder项目,你可以翻译...所以Art Breeder基本上基于两件事。你可以用生成对抗网络创造东西,但你也可以反转它们。因此,你可以拍一张照片并将其转换为潜在向量。
我们最近看到人们所做的事情是,他们以自由女神像的照片为例,将其转换为潜在向量。然后他们找到与现实相对应的潜在向量。然后他们改变它们,然后再现它。然后你就有一个看起来像现实世界的自由女神像的人。此外,在修复方面,我认为还有很多事情
在我们的过去中,我们现在可以访问,就像自由女神像一样。还有其他雕像,还有其他文物。杰森·安蒂克制作了将图片上色的交易。我认为还有很多类似的工具,正在将我们丰富的文化历史变得可访问并对今天的观众有趣。我认为这非常重要。
非常酷。是的,在此之前浏览网站时,有太多酷的作品。我很感激你能挑出几个来突出。我很好奇,经过这一过程,发现了许多新形式的东西,这是否影响了你在谷歌艺术与文化实验室的驻地工作?
是的,不,我认为肯定是的。我的意思是,我们正在做...我认为我们的实验室每年构思大约20到30个项目,并发布很多项目。在所有这些讨论中,你想要参考其他项目。我认为一个...
我创建了一个词汇,但也有很多人提交项目。因此,在过去几周,我大约有150个提交。因此,我可以看到每个人正在创造什么。我认为如果你是一个实验室,如果你想处于事物的前沿,你真的需要知道其他人在做什么。
这很有道理。实际上,我个人对谷歌艺术与文化实验室并不太了解,我不确定我们的听众是否了解。因此,也许你可以给我们一个关于实验室的概述,它做什么?它在什么项目上工作?所以谷歌艺术与文化组织的主要目标是使
艺术和文化对大众更有趣和相关。谷歌艺术与文化实验室更专注于这个领域的技术方面。因此,我认为最著名的项目是艺术自拍。
你拍一张自己的照片,因为谷歌艺术与文化有数十万幅画作的数据库,它可以匹配与那个人最相似的画作,这个项目在几年前非常火爆。我们与Magenta进行了很多合作,因此与他们的许多最新研究合作,了解我们如何能够
创建接口,与这些模型互动,并了解公众如何从这些不同的创新中受益。
我认为早期,实验室已经存在了大约五年。早期,很多是使用U-maps和测试地图来可视化数据并使其更易于访问。因此,我们还与许多博物馆合作。谷歌还有一个部门,帮助
归档信息,因此他们可以去博物馆,归档数亿张图像。然后他们想要获得一个概述,博物馆和博物馆的研究人员想要了解他们在数据集中的内容。因此,我们可以自动化这一过程,使这些信息对研究人员可访问。
非常酷。是的。你提到VooLab已经存在五年,这让我想知道,实际上,整理这个网站,你提到它在某种程度上几乎是在编纂AI如何演变及其在创意目的上的应用的历史。你认为...
事情正在加速。随着时间的推移,越来越多的人在玩技术或AI来创作艺术吗?还是相对稳定?我认为,如果你查看时间线,确实有一个巨大的爆炸。
我认为这是一种组合。一方面,你有足够好的技术来产生有趣的新领域可供探索。另一方面,它变得更加可访问。我记得几年前,仅仅创建一个云实例并使用GPU需要几天时间,但现在你只需点击一个按钮即可访问一个模型。
我认为,创造性社区总是在寻找新的工具和表达方式。我认为我们正处于这个边缘,AI正在进入主流叙事。因此,许多创意者希望在这种叙事中使用这个工具。你有技术方面。我认为这确实使机器学习艺术
在此刻爆炸性增长。这太棒了。是的,看到这一切几乎实时发生非常酷。关于可访问性,我很好奇,网站上的艺术家和创作者的背景,是否仍然主要是能够同时进行编码和艺术创作的人,还是已经足够
可访问,以至于那些可能不具备技术能力、不进行编程的艺术家也能够融入其中?还是这只是刚刚开始发生?我认为过去更具技术性。我会说大概
在2015年之前,绝对是更具技术性。现在你有像我之前提到的Runaway ML这样的东西,它是一种带有不同模型的网页浏览器。它有一个可视化界面,你可以用来使用这些不同的模型。
因此,我认为在流行的方法中,如StyleGAN或不同的GAN变体,有简单的方法可以访问它们。但我认为许多有趣的工作仍然来自机器学习的前沿。然后你需要能够以大多数人无法做到的方式与模型合作。这很有道理。是的,这似乎也是我所看到的情况。但是的,
你提到RunwayML,也许为了听众的利益,假设他们访问网站并喜欢一些GAN风格的艺术,你可以进行风格迁移,进行深度梦境,进行各种效果。
你会说对于这些可能不太熟悉编码的听众,他们可以继续尝试使用你网站上的材料,然后开始玩弄并创建自己的版本吗?这是否可行?
是的,不,我认为这就是我开始学习机器学习时的方式。我从上色开始。这样做的一个原因是,它是可视化的,富有趣味性。
我认为这是进入机器学习领域的好方法。网站的创建是为了我对所有内容进行了分类。因此,一旦你看到一些有趣的东西,你应该能够提取关键词和模型并进行Google搜索。如果你找到一个协作或笔记本,
通常你可以点击它们,你将能够,可能如果你不具备技术能力会有点困难,但通常如果你花费30分钟或一个小时,你可以理解如何使用这些模型并创建不同的艺术作品或项目。这太棒了。是的。所以听众们,如果你查看网站并看到一些酷的东西,随意尝试和玩弄。实际上并不难。通常有说明,你可以直接复制粘贴,这正是AI研究人员经常做的。
是的,所以,嗯,我很好奇,关于这个项目的下一步,你是否在维护它,提交数量是否在快速增长?
是的,不,所以这是,嗯,我只是在几周前推出的,我仍然在收到很多提交。嗯,是的,目标是每个月进行更深入的审查,以了解人们在做什么,并将项目添加到网站上。然后我有一个通讯,我会发送给大家,以突出一些产品,以便人们可以跟上最新动态。哦,我明白了。那份通讯,呃,人们可以在网站上注册吗?是的。
确切地说。是的,非常酷。所以我得去注册一下,因为获取最新的动态确实听起来很有趣。是的,我认为我们涵盖了很多与这个项目相关的酷东西。我通常问的最后一个问题是开放式的。你是否有任何其他想法,关于AI、艺术和创造力,最近一直在思考并想与我们的听众分享的?
嗯,我认为有趣的是AI艺术社区与一般艺术社区之间的冲突。我认为你会看到那些不懂技术的人,很容易将人性化的特征归因于这些不同的模型和他们不理解的事物。
我认为这在某种程度上是技术魔法叙事的一部分,但我认为在许多方面,这可能是危险的并造成伤害。我认为一个可以造成混淆的领域是,人们...
认为这些可以在相对短的时间内取代工作。因此,许多项目正在推出生成对抗网络和视频,电影界的人们感到担忧。你会看到作者们因为OpenAI的工作而感到担忧。因此,我认为...
在帮助更广泛的观众理解这些技术的能力、它们能做什么,以及围绕这些技术有一个更诚实的叙事方面,还有很多工作要做。绝对如此。网站上有一些我特别喜欢的有趣例子。
例如,乐队Yacht的音乐专辑,他们曾经是一个普通的乐队,对吧?并没有使用太多AI,但他们实际上将其融入了他们的创作过程中。强调艺术家如何使用AI而不是被取代的方式非常酷。
希望其他人也会这样看。我认为我也看到很多这样的情况,即你有在某一领域非常出色的人。在这个案例中,是音乐。然后你会发现机器学习领域的人,并进行合作。
因此,我认为我们看到的很多情况是,处于前沿的运动图形或3D动画的人与在机器学习方面非常出色的人合作,然后他们可以共同创造出前所未见的东西。太棒了。因此,基于这个,我认为我们将结束这一集。再次感谢你,埃米尔,加入我们这一集。太棒了。是的。谢谢你邀请我。
非常感谢你,听众们,收听这一集Skynet今天的《让我们谈谈AI》播客。你可以在网站上找到与今天类似主题的文章,包括艺术,并在skynetoday.com上订阅我们的每周通讯。无论你在哪里收听播客,请订阅我们,并请给我们留下评分或评论。如果你喜欢这个节目,我们非常需要你的反馈。务必收听我们未来的节目。