斯坦福人工智能实验室的博士生安德烈·库伦科夫和肖伦·周讨论本周的主要人工智能新闻故事。
</context> <raw_text>0 你好,欢迎收听Skynet Today的《让我们谈谈人工智能》播客,在这里你可以听到人工智能研究人员关于人工智能实际情况和哪些只是点击诱饵标题的讨论。我是肖伦,机器学习组的三年级博士生,和安德鲁·吴一起工作。我研究生成模型、改善神经网络的泛化能力,以及将机器学习应用于应对气候危机。与我一起的是我的联合主持人...
嗨,我是安德烈·库伦科夫,斯坦福大学学习实验室的三年级博士生。我在研究中主要关注身体操控的学习算法。
肖伦,我认为本周我们有很多相当多样的新闻故事,所以聊聊这些应该会很有趣。我们就直接开始第一个故事,标题是《看不见的手,患者未被告知关于建议其护理的人工智能系统》。这篇文章来自statnews.com。
简而言之,完全对患者不可见的机器正在越来越多地指导临床决策。这篇文章总结了明尼苏达州最大的医疗系统中数万名患者的出院计划决策是如何在人工智能模型的帮助下做出的,但他们对此并不知情。
显然,医生和护士特别强调不提及这些,因为患者可能会担心并不信任人工智能。当然,医生和护士不希望这样,因为他们大概是信任这些模型的。
医疗工作者确实强调,找到由人类和人工智能做出的决策只是一个帮助工具。但当然,仍然存在使用这些决策辅助工具是否算作研究的问题,如果它过于探索性,发展不足。
而且不清楚患者是否有权知道这些信息,他们是否会对此感到担忧,或者不让他们知道是否合适。我想,肖伦,你怎么看?这似乎是一个相当棘手的领域。
我认为这是一个非常棘手的领域。这让人想起了人工智能和可解释性的问题。可解释性意味着人工智能可以解释它是如何得出决策的,并将其提供给人类,以便我们可以更信任人工智能。而这些系统,听起来似乎没有太多这样的透明度。这是一个非常困难的问题。是你还是我?是的。
该死。好的。这是一个非常困难的问题。我会说,另一方面,用户对人工智能决策支持工具的过度依赖也是一个问题。在这里,用户我会说是医生,而这种观点在文章中有所表达,三名患者表示他们不想知道他们的医生是否受到这样的工具的建议。
而第四名患者则强烈支持披露。我觉得这很有趣,许多人不想知道他们的医生是否实际上受到这样的工具的建议,他们觉得这不合适。但我也觉得这有点令人担忧...
医生可能会过度依赖这样的系统。我在我们进行的实验中看到过这种情况,我们有一个人工智能模型说某事是积极的,然后医生说,你知道,我可能稍微更确定它是积极的,因为我看到这个人工智能系统说它是积极的。但我没有看到它完全改变医生的决定。所以这稍微好一点,但我可以看到这种情况发生。
是的,我认为这些都是很好的观点。我认为在当前人工智能发展的阶段,医疗工作者所使用的理由是,患者可能通过新闻了解到这些信息,而提及这些信息只会导致不必要的干扰,并以他们试图避免的方式破坏信任,对吧?
但与此同时,我们知道一些人工智能模型即使在生产中也存在偏见。我们知道目前没有很多工具可以真正理解模型。而一般来说,我认为我们已经看到很多时候对于这些模型的表现、测试等方面没有太多透明度。
这让我想起了我们曾经讨论过的审计问题,即公司必须发布他们使用的模型的指标以及它们的可靠性等,以便让人们知道他们应该信任什么,或者对这家公司使用的方法应该有多担忧。
所以总的来说,我认为,正如你所说,这是一个复杂的话题,但我对不披露这一决定持怀疑态度。似乎无论如何都不应该这样做,只是继续使用人工智能工具。对,绝对如此。我想可能有很多原因导致不披露,医生可能会对此感到担忧。但我认为我们需要
考虑在我们制定监管时,如何保持透明度,应该进行什么样的披露,什么样的披露是合理的。当然,医生在进行诊断时也会隐瞒某种信息。
当他们进行诊断时,我见过医生在另一个医生在场时改变他们的诊断,例如,你知道,这受到环境的影响。所以,我可以想象那里可能还有很多因素,但我真的希望这能融入到监管的讨论中。是的。
是的,确实如此。与此相关的一个常见回应是,关于医学中的可解释性,医生并没有完全向患者解释他们决策的理由,对吧?你应该只是信任你的医生作为专家。因此,从某种意义上说,关于为什么做出决策已经存在一些不透明性。
但与此同时,我认为我们有医学学校和培训的过程,以及医生必须遵循的各种誓言,以期训练他们以道德的方式行事,并告知患者任何必要的信息,而这在人工智能中并不那么真实。因此,我们需要弄清楚什么是最低限度的必要披露。正如你所说,这最终可能涉及监管。
当然,如果这些系统绝对完美,绝对比所有医生都要好,那么我们可能应该信任它们,对吧?所以如果它们变得那么好,我们就信任它们。但当然,它们还没有达到那个水平。事实上,它们可能永远不会达到,这将我们带到下一篇文章,来自VentureBeat。麻省理工学院的研究人员警告称,深度学习正接近其计算极限。
因此,这里的总结是,历史上深度学习的进展在很大程度上依赖于计算的进步。因此,像神经架构搜索(NAS)这样的新方法极其依赖计算,并且它们对环境的影响巨大,尤其是在自然语言处理领域,开始引起关注。
因此,来自麻省理工学院、IBM沃森人工智能实验室、安德伍德国际学院和巴西利亚大学的研究团队共同提出,持续的进展实际上需要更高效的深度学习方法。这些要么是新方法,要么是现有方法的更高效版本。你可以想象一个蒸馏模型,使其更小并提高效率。研究人员分析了大约
1,000篇来自Archive的论文,以分析深度学习性能与其计算之间的关系。当他们分析了这些来自Archive的1,058篇论文时,Archive提供预印本以及其他基准来源,他们发现此时需要...
指数级增加的计算才能获得增量改进,这非常令人担忧。安德烈,你怎么看?
是的,这是一篇有趣的论文。我认为很酷的是,我们越来越多地获得这种实证论文,利用大量数据评估你所看到的趋势。我认为这里需要注意的一个警告是,一些例子,例如,都是与非常流行的基准相关的。因此,其中一个是ImageNet的top one错误。
他们确实显示出,你知道,他们有一张图表显示,要在top one错误上获得小的改进,所需的计算是指数级增加的。但话又说回来,top one错误在这一点上相对较低,可能饱和到一个程度,即我们可能无法再提高多少。
所以一个好的警告是,深度学习中有很多任务可能现在还没有被充分探索,并且需要更多的架构创新或概念创新。很多进展是在没有巨大计算的情况下取得的。一些例子是,比如说,3D计算机视觉是一个相当年轻的领域。我认为在强化学习中,有很多算法工作。因此,再次,
我会说这篇论文在特定类型的研究中做得很好,但这种类型的研究并不是深度学习的全部,甚至可能不是深度学习中最令人兴奋或有趣的部分。你怎么看,肖伦?
我认为这是真的。而且,ImageNet中的top one错误,如果你实际上查看过ImageNet的图像,往往并没有那么有意义。因为我认为人类分类的一致性可能比模型现在的表现更差。如果你真的去看这些图像,其中一些看起来有多个类别。它甚至看起来像它们被标记为的主要类别并不是它应该是的主要类别。因此,一个例子是,我确实见过一些柠檬的图像,里面还有苹果和橙子,但它说,不,这是一个柠檬。所以,你知道,top one意味着它的
第一次分类是正确的类别,你不能仅仅说那张图像必须只是柠檬。它也有橙子和苹果。所以我会说,这在ImageNet中发生得相当频繁。因此,即使基准本身也可能暗示一些问题,其中计算实际上只是试图在那个数据集上挤出某种过拟合,我相信。
是的,绝对如此。我认为这对他们在这里的所有其他深度学习任务的例子也同样适用。因此,他们还做了机器翻译和物体检测,这些都是非常彻底研究的问题和数据集。因此在这一点上,
当你应用一个新架构时,你不会期望,比如说,发生巨大的变化。因此,合理的推测是,你需要非常剧烈的变化才能获得相对较小的改进。但重要的是要注意,研究的内容远不止于改善这些特定的指标。我认为我们之前也讨论过,即使只是
准确性本身,比如表现,并不是研究的唯一目标。我们还在研究诸如学习更少数据、提高计算效率等其他事情。因此,衡量进展的方式,确实不必仅仅依赖于这些特定基准上的准确性。
我认为这确实导致了文章标题“麻省理工学院研究人员警告深度学习正接近其计算极限”有点夸大其词。我的意思是,计算极限暗示了很多事情,这有点过于夸大了情况。尽管在某种狭义上,这是真的。
实际上还有另一篇文章标题为“准备好人工智能产生更少的魔法”,来自WIRE.com,这甚至更具误导性,对吧?因为我们已经相当好地产生了这种魔法,并且我们正在探索越来越多的有趣事物。因此,是的,尤其是后者的文章,我会说,
并不完全是论文所说的。人工智能研究中你所做的事情仍然非常令人兴奋,我想。对,绝对如此。因此,我们确实需要在此之前考虑这些警告。说到考虑警告,我们的下一篇文章来自路透社。德国法院禁止特斯拉关于自动驾驶的广告声明。
所以德国法院实际上禁止特斯拉重复他们所谓的关于自动驾驶和驾驶辅助系统的误导性声明,基本上是自动驾驶。对特斯拉的自动驾驶系统的批评在消费者中相当普遍。当然,在德国,担心的是这些声明实际上导致司机在驾驶时更加不谨慎。
埃隆·马斯克本月表示,特斯拉接近所谓的五级自动驾驶,这意味着它是完全自动的。因此,这意味着驾驶时不需要任何乘客输入。当然,这与现在的事实相去甚远。我喜欢埃隆,但你怎么看,安德烈?我觉得这是必然的。是的。
我认为这是一个有趣的案例。我认为特斯拉实际上已经因为它如何营销其自动驾驶和关于自动驾驶的声明而受到很多批评。特别是法院提到广告中包含了诸如汽车具有完全自动驾驶潜力和自动驾驶的声明。
这确实给你一种感觉,这些汽车几乎可以在没有你输入的情况下自己驾驶,忽略马斯克在推特上的声明,所有迹象都表明这仍然离事实非常遥远。马斯克多年来一直在说,我们很快就会实现完全自动驾驶。
所以我认为是时候对这些误导性声明进行一些监管审查了。人们不应该在广告中受到误导,信任仍然应该存在于人工智能系统中。是的,我想这可能是我第一次看到这种情况,我很好奇未来是否会有更多这样的情况发生。
我同意。我认为虚假广告可以说属于各种消费者保护法。我认为这绝对涉及安全问题。
我之前和一个律师朋友讨论过这个问题。他对此非常担忧,尤其是关于特斯拉。真正有趣的是,这完全是有道理的。这有点有趣,因为实际上我们不知道谁的工作是监管这个,基本上。比如,是Nitsa吗?基本上是...
监管自动驾驶的人,还是消费者保护机构?你知道,谁应该监管这个?我认为这实际上使得事情变得非常困难。看到德国实际上这样做,真是令人耳目一新。我认为这很有道理。我听说过一个故事,实际上是关于一个人在高速公路上驾驶,认为他们的特斯拉当时是完全自动的。这可能是一两年前的事,他就坐到后座上
小睡了一会儿,结果在一次撞车中丧生。因此,因为它并不是完全自动的,这真的很可怕。是的。是的,绝对如此。如果你实际上查看一下,有一个关于自动驾驶汽车致死的维基百科页面。上面有一张表列出了所有已知的历史事件。
我认为其中大多数,甚至可以说是大多数,都是特斯拉的事件,类似的案例。我认为到目前为止大约有半打特斯拉在司机让自动驾驶驾驶时发生的撞车事故。因此,这进一步加剧了这些声明的问题,而这些声明实际上使得系统在如何发生这些事故方面显得相当可疑。
所以,是的,我想看到这种审查是件好事。我想说到需要审查的事情,我们将转向我们的下一篇文章,这篇文章来自路透社,标题是《用于攻击活动人士夫妇的深度伪造显示新的虚假信息前沿》。简而言之,有一个虚构的人名叫奥利弗·泰勒,
他指控一位名叫马津·马斯里和他的妻子是已知的恐怖分子同情者。在经过一些审查后,显示泰勒的照片是一个深度伪造。实际上关于他的背景有一个复杂的虚构故事。因此,有一所他所关联的大学表示没有记录。
他在网上的足迹很小,比如在Quora上,但他在那里并不活跃。两家发布他工作的报纸表示,他们尝试并未能确认他的身份。然后,图像欺骗专家使用最先进的法医分析程序确定这些文章的个人资料照片确实是基于人工智能的图像。
所以基本上被称为深度伪造。
到目前为止,我们还没有看到太多真正恶意和戏剧性的深度伪造使用案例。虽然有很多非常负面、有害的事情,比如基于深度伪造的色情内容。但我还没有看到任何像这样戏剧性和直接的事情...
是的,我觉得这很有趣。你呢,肖伦?是的,我之前没有见过这种性质的事情。我认为这让人非常担忧的是,
这是一种伪造,但我想我们无法应用那些可怕的面部识别算法来找出这个人是谁。对吧?因为他们并不存在。或者如果我们这样做,我们会找到一个没有做这件事的人,这也不好,可能更糟。呃,
是的,所以这确实表明这开始占据一席之地。我希望当局使用其他手段追踪这个人,无论是追踪这个人的IP地址还是其他什么。现在有太多方法可以伪造一切,这有点可怕。因此,几乎就像什么是真实的,对吧?是的。
确实如此。是的,似乎这是一种日益增长的趋势。因此,上周,《每日野兽》的出版物还揭示了有一个深度伪造记者的网络,像这样提交文章以传播这些想法在线。
因此,这似乎是我们可能需要开始应对的事情,除了我们在媒体和寻找真相方面面临的所有其他问题。
我想好消息是,这是一家相对较小的出版物,文章没有获得太多参与。因此,推测更知名的出版物不会发布深度伪造记者的内容。但我仍然认为这很
戏剧性,也许我们会开始看到一些人在Medium上发表的文章是由虚假人物撰写的等等。因此,我们必须个人意识到这是一个真实的可能性,我想要对此保持警惕。
这让我想知道,你知道,未来会是什么样子... 我想会有某种新的媒体演变,现在有这么多虚假信息或这么多回音室,下一次演变是什么?如果有的话,我确实想知道是否有更好的东西,我们可以拥有的激励机制不是那么...
糟糕,以至于导致这种失控的螺旋向一个方向发展。因此,我想知道那可能是什么。我想知道我们是否会退化成几乎像以前的社会,只是拥有村庄,对吧,我们与人们见面。但考虑到这个冠状病毒的Zoom世界,这听起来也不太可能。所以我不确定。
不确定你是否有任何想法,安德烈。是的,这是一个非常有趣的问题,考虑到分辨真相和虚假信息的难度,以及日益增加的虚假信息和误导信息,我们该如何掌握这一切?我看到了一些不同的看法,我觉得很有趣。例如,我听说过一些讨论,
媒体组织,如《纽约时报》和其他一些建立的信誉良好的来源,将变得更加重要,因为它们将提供有关特定媒体来源的文档。它们将验证其合法性。
并且不是深度伪造。我们基本上需要这些签名,这些数字签名在文章、图像、视频上,以真正知道它们是真实的,而不是深度伪造的,不是用人工智能创建的。因此,我想乐观的版本是,我们将设法建立一个这样的系统,在这个系统中,我们有验证的方法,任何虚假的东西都被捕捉到系统中。当然,这将限制人们表达自己和发布内容的能力。但在这一点上,也许这是我们需要做出的权衡。你有没有看到任何与你产生共鸣的想法或方法或可能的未来,肖伦?比如说,关于如何处理深度伪造,如何确保
能够区分虚假信息和事实,以及如何掌握这个大问题。我看到了一些权宜之计。因此,权宜之计的解决方案是,拥有事实检查员和一切,但我不确定这是否真的。
确实解决了这个情况,或者说它确实有帮助,但我认为并不是每个人都会相信这一点。因此,呃,我,是的,我不确定。
是的,我的意思是,我想,简而言之,这是一个复杂的事情。好消息是,有组织、团队和聪明的人在比我们更深入地思考这个问题,并希望提出可能更微妙、更细致和可能有效的想法,希望我们会看到更多这样的想法,因为深度伪造也变得更加突出。对,绝对如此。
关于深度伪造,嗯,生成模型,深度伪造是图像的生成模型。最近,有一个生成文本的模型引起了相当多的关注,那就是GPT-3。三代表版本。因此,有一篇标题为《GPT-3,一个在写作几乎任何东西方面都异常出色的人工智能》的文章。
因此,GPT-3最近由OpenAI发布,人们一直在发布关于GPT-3的能力以及其局限性的内容。你看到过什么,安德烈,什么引起了你的注意?是的,最近在推特上这真的很火,正如你可能知道的那样。像许多人一样,我对这个早期演示感到震惊,这可能是最近所有这些炒作的开始。
有一个演示使用GPT创建网站的网页布局代码。因此,你输入类似于“一个大红按钮,上面写着blah,blah,blah”,旁边有一个表情符号,用英语,它为你生成了HTML和CSS或其他内容。
有趣的是,GPT-3并不是为了这个任务而训练的。它是为了一个非常简单的任务而训练的,即预测在给定一些先前单词的情况下,接下来会出现什么单词。因此,完全是出乎意料的。
令人惊讶的是,这种自动补全可以被提示,可以被条件化以执行许多更具体的任务,比如生成代码,只需给它一个示例输入。因此,这是我看到的一种情况,还有其他一些,比如你可以与各种角色进行对话。你可以说,哦,GPT-3,你是爱因斯坦,我在和你交谈,像爱因斯坦那样和我交谈。它实际上会扮演那个角色并可以这样与你交谈。
所以这绝对是相当有趣和酷的,而且也被炒作了一段时间。你呢,肖伦?我也确实看到了这一点。我觉得这很酷,JavaScript、HTML,所有这些,
我们用于编程的语言实际上都是语言。我们都知道我们称它们为语言,但GPT-3确实将其提升到一个新的水平,表示,是的,
你是一个语言,我将像语言一样生成你。因此,看到GPT-3从自然语言生成模板真的很酷。我觉得我看到的最有趣的评论是,呃,这就是我拖延学习编码的原因。因此,我觉得这很有趣。呃,所以,是的,这,呃,这是一项相当令人印象深刻的成就。我会说,
我认为还有一些其他有趣和有趣的事情是,你知道,以前我们会构建我们的模型,然后神经架构搜索出现了,没关系,也许我们甚至不需要构建,我们甚至不需要设计架构。然后,所以我们不再调整架构,而是调整超参数。然后现在我们甚至不需要调整超参数。我们实际上只需要调整提示,你知道,这在某种意义上是正确的,因为你必须调整提示,因为,
并不是每次它都能产生你想要的输出,无论是文本还是其他语言。因此,你可能需要尝试10次,其中一次听起来不错。我知道还有一篇新闻,关于在黑客新闻上获得相当多赞的文章,
他们在文章中间透露,2PT3写了那部分整个文章。但直到中途才揭示出来。它听起来像是一篇相当元的文章,关于2PT3及其局限性。因此,这很有趣,因为在评论区,你可以看出谁读过文章,或者他们读到多远,基于他们是否听说过那篇文章。
是的,那是一个有趣的事情。实际上,我想知道,你读过那篇GPT-3生成的文章吗?你觉得怎么样?没有完全读过,但我对它印象深刻。
是的,我开始读它,我已经在评论中看到它是由GPT-3生成的,而且它相当连贯,不像许多以前类似的作品。因此,它听起来是有道理的,直到许多段落之后才变得无意义。尽管我会说我对它的写作技巧持批评态度。它并不完全像传统的好博客文章那么好。对吧。
也许你的博客文章标准太高了。可能是,可能是。它比高中生更好吗?比小学学生更好吗?我不知道。你知道,就像我们总是可以,嗯。还有一个关于实质的问题,比如它能在X数量的字中产生多少实质内容,你知道吗?是的。是的,确实如此。但我认为,是的,这一直很酷。正如你所说,有许多警告,比如人们开始注意到它的可靠性,因为当你第一次看到这些演示时,你可能会感到非常惊讶,认为,知道吗,全面规模的人工智能,人工智能几乎就在这里。但有许多警告需要注意。
话虽如此,这实际上也让我想起了我们刚刚讨论的事情,即大型计算导致的收益递减。好吧,这是一种反驳,对吧?GPT-3在概念上并没有什么新鲜事。他们只是将一个现有的想法扩大了规模。
<context>GPT-3,深度学习的局限性,现实世界中的深度伪造 斯坦福人工智能实验室的博士安德烈·库伦科夫和肖伦·周讨论了本周的主要人工智能新闻故事。 在www.skynettoday.com查看所有讨论的故事和更多内容 主题:深思熟虑 凯文·麦克劳德(incompetech.com) </context> <raw_text>0 所以他们有一个巨大的模型,拥有1750亿个参数,远远超过人工智能中的典型水平。我基本上在整个互联网的基础上训练它,以便从任何文本片段进行自动补全。结果发现,它具有与之前模型 qualitatively 不同的技能,可以被提示执行不同的任务。
只需很少的例子。所以我认为这是社区相当意外的事情。它表明,是的,根据某些指标,我们得到了递减的回报。但在其他方面,随着计算能力的提升,也许你会得到 qualitatively 不同的结果。这当然在研究中是非常重要的。我认为这在某种程度上令人惊讶,而在另一方面又是可以预期的,因为你知道,
呃,即使仅仅是,如果你考虑人类社会,当我们想到人数的增加时,我们想到一个团队,然后是一个组织,然后是,呃,一个城市,一个国家,然后是世界。因此,在每一个这些规模上,我们可以完成不同的事情,对吧。然后我们想到不同类型的事情。所以在某种意义上,这确实在某个层面上是有道理的,会变成 qualitatively 不同的东西,呃,
但我们并不一定知道这些阈值在人工智能中是什么。但在这里,我们似乎已经跨越了一个阈值。确切地说。从这个意义上说,OpenAI 应该因进行投资而受到赞扬。这是一个非常昂贵的模型训练。花费了很多工作。这是他们的一次赌注,认为你会得到一些 qualitatively 有趣的东西,而不仅仅是更多的相同。在这种情况下,似乎得到了很好的回报。
感谢您收听本周的 Skynet Today 的 Let's Talk AI 播客。您可以在 skynettoday.com 找到我们今天讨论的文章,并订阅我们的每周通讯,获取类似的内容。整个播客由 TBD3 制作。开玩笑的。
如果可以的话,不,我们实际上必须做这项工作。无论您在哪里收听播客,请订阅我们,如果您喜欢这个节目,请不要忘记给我们留下评分。请务必下周收听。