We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI Fails to Read PDFs, OpenAI Jukebox, and more!

2020/5/9

Last Week in AI

AI Deep Dive AI Chapters Transcript

People

Andrey Kurenkov

Sharon Zhou

Topics

Andrey Kurenkov: 本周讨论的新闻涵盖了AI在多个领域的应用，包括COVID-19研究、医疗诊断和音乐生成。在COVID-19研究中，AI面临着处理PDF文档的挑战，因为PDF格式的多样性和缺乏标准化使得AI难以提取有效信息。在医疗领域，Google开发的AI眼疾检测系统在实际临床应用中效果不佳，这凸显了AI模型在不同环境下的泛化能力问题。此外，Andrey还讨论了OpenAI发布的Jukebox模型，该模型能够生成不同类型和风格的音乐，展现了AI在音乐创作领域的潜力，但也存在一些不足，例如音质和歌词方面的问题。最后，Andrey还讨论了Moxie这款面向儿童的社交机器人，旨在帮助儿童发展社会情感和认知能力，但其市场接受度仍存在不确定性。 Sharon Zhou: Sharon Zhou在节目中主要讨论了AI技术在处理PDF文档和医疗数据方面的局限性，以及新型AI音乐和社交机器人的出现。关于PDF文档，Sharon指出，尽管AI技术发展迅速，但其在处理PDF文档，特别是理解图表和语义布局方面仍然面临挑战。在医疗领域，Sharon强调了现有的AI临床应用规范主要关注准确性，而忽略了AI能否改善患者预后的重要性。此外，Sharon还对OpenAI的Jukebox模型和Moxie社交机器人发表了自己的看法，她认为Jukebox生成的音乐在旋律和音调上能够体现不同音乐类型和艺术家风格的特点，但其歌词和演唱方式仍不够自然。对于Moxie机器人，Sharon认为其瞄准了儿童社会情感技能发展这一市场需求，但其市场接受度仍存在不确定性，其成功与否取决于能否说服家长，使其相信该产品能够减少孩子使用屏幕的时间。

Deep Dive

Chapters

The CORD-19 initiative aims to use AI to summarize COVID-19 research, but faces challenges due to the PDF format and language diversity.

Shownotes Transcript

Stanford AI Lab PhDs Andrey Kurenkov and Sharon Zhou discuss this week's major AI news stories. Check out all the stories discussed here and more at www.skynettoday.com Theme: Deliberate Thought Kevin MacLeod (incompetech.com) Licensed under Creative Commons: By Attribution 3.0 License </context> <raw_text>0 您好，欢迎收听SkyNet Today的Let's Talk AI播客，在这里您可以听到AI研究人员关于AI的实际情况以及哪些只是耸人听闻的标题。本周我们将关注更多AI在COVID-19中的应用，然后讨论一些最近AI发展的趣闻。

我是Andrey Kernikov，斯坦福视觉与学习实验室三年级的博士生。我的研究主要集中在机器人操作的学习算法上。和我一起的是我的联合主持人。我是Sharon，机器学习小组三年级的博士生，与吴恩达教授一起工作。我的研究方向是生成模型、改进神经网络的泛化能力以及将机器学习应用于应对气候危机。并且

希望你一切安好，Sharon。我们可以直接进入本周我们将要讨论的新闻报道。第一个来自Rollcall.com，标题是《寻求COVID-19答案的AI研究人员面临障碍》。

这篇文章是关于一个名为CORD-19的项目，该项目于3月16日在白宫科技办公室宣布，基本上是多家大型公司共同努力整理COVID-19的科学文献。所以现在已经有

数万篇论文，为了能够全部阅读并总结，实际上尝试使用AI和机器学习来筛选并理解这些论文。这篇文章简而言之就是说，这正变得有点棘手，特别是由于所有这些论文都采用PDF格式，这对于人类来说很容易阅读，但对于机器来说就不那么容易了。

阅读。我想这是一个有趣的发展，也许对于任何非研究人员来说。

了解到很多AI研究或一般研究几乎只是阅读和编写PDF文件，这可能会很有趣。所以，是的，我不知道。Sharon，你对这成为一个障碍感到惊讶吗？这并不令人惊讶，但我也想指出，虽然AI吹嘘自己能够做所有这些事情，但我们仍然无法让它为我们阅读PDF文件。

我觉得PDF仍然是一个很大的挑战，这很有趣，也许单个单词、文本不是，但图表和语义上理解布局以及事物之间的指代关系仍然非常非常具有挑战性，尤其是在格式在各个地方都如此多样化的情况下。而人类只是如此……

很容易适应阅读不同的PDF并理解正在传达的内容。

是的。这篇文章指出，这项工作最初是从29,000篇论文开始的。现在已经超过50,000篇，PDF，我想我们的一个问题是没有真正的标准化。所以不像所有论文的每个部分都有一个漂亮的小标签，或者图像有相同的标签。

甚至格式或布局方式也是相同的。因此，存在大量的差异，而人类自然能够处理这种差异，但AI和机器学习却不能，除非付出巨大的努力。

这篇文章还指出，Kaggle汇集了来自世界各地超过一百万的数据科学家，正在举办一场竞赛，以生成能够从这些文章中提取信息和发现的算法，以回答诸如根据世界各地观察到的COVID-19潜伏期等问题。然后，他们会将这些信息提供给生物医学研究人员，生物医学研究人员会反过来向数据科学家提供关于进一步问题的反馈。

是的，它还指出，该资料库主要包含来自美国、英国、欧盟的文章，来自中国的文章较少，当然，那里也有数千篇论文。因此，中文论文不多，这只是另一个……

对常用批准文献。现在有多种语言，大概还有不同的格式。还要注意，该数据库也可能缺少政府机构的出版物。是的，我认为这很有趣地展现了这项工作的挑战性和规模之大，仅仅是

数万篇论文，即使要阅读完它们，我们也试图使用算法，但正如你所说，现代AI有点局限性，将其应用于人类认为很容易的各种事情并非易事，这需要付出很多努力。说到AI在现实世界的局限性，我们的下一篇文章是谷歌的医疗AI在实验室里非常准确，但在现实生活中却大相径庭。

这篇文章发表在《技术评论》上，是谷歌健康的一项研究，文章引用说，“这是首次研究深度学习工具在实际临床环境中的影响，并说明如果它没有针对特定的临床环境进行调整，AI可能会使情况变得更糟而不是更好”。对。

我想指出，它可能并非如此。我知道它实际上并不是第一次研究深度学习在实际临床环境中的影响，但它是一个有力的研究。

因此，谷歌部署了一个深度学习系统，该系统经过训练可以发现约11家泰国诊所的糖尿病患者眼部疾病的迹象。虽然谷歌的实验室数据报告显示其准确率高达90%，结果的周转时间为10分钟，但该系统在实践中并没有很好地发挥作用。

这是因为该系统是在非常高质量的眼部图像上进行训练的。因此，它无法很好地处理护士发送的手机图像。这导致大约五分之一的图像被系统拒绝，没有任何结果，迫使患者自己去诊所进行。

进行第二次检查。文章指出，“由于该系统必须将图像上传到云端进行处理，因此几个诊所的互联网连接不良也导致了延迟”。谷歌健康团队目前正在与当地医务人员合作，设计新的工作流程。因此，这非常有趣，当我们开发算法时，我们经常会

局限于我们自己的数据集和方法，并认为这可能会推广到该数据集之外。但当然，当我们在实际环境中部署某些东西时，这并不总是现实情况，这实际上对那些人有用。因此，我认为在研究中，有时我们对利益相关者考虑得不够充分。这也许就是一个例子。是的。

是的，我同意。我认为在过去一年多的时间里，斯坦福大学新成立的人本AI研究所一直在推动这样一个理念，即随着AI成为许多领域中越来越重要的工具，我们需要让AI更加跨学科。你不能仅仅让AI研究人员开发东西，然后期望在将其交给经济学家、记者或

或在这种情况下，医疗从业者时，它就能发挥作用，对吧？你需要与这些学科互动。正如你们都知道的，Sharon，我们讨论过你与气候变化研究人员合作的工作。而你，是的，你必须去那里。你必须实际了解工作流程并理解它，然后才能创建工具。我认为这是一个很好的例子。

我认为，除了这篇文章强调的跨学科部分之外，谷歌确实有内部的医生，他们非常了解临床环境，但也许只是在美国系统或欧洲系统中。

但是，我认为，他们并没有认真考虑他们实际上会将这项技术交给谁，这项技术在哪些地方最有用。听起来泰国可能是那个地方，但他们并没有考虑图像的质量。并且

我们在实验室里肯定也遇到过这种情况，并考虑过对不同质量的X光片进行处理。我认为在我们看到这篇文章之前，我们已经听说过这项工作了，但这绝对是医学领域的一个巨大问题。文章还指出，

部署AI到临床环境的现有规则，例如美国FDA的批准标准或欧洲的CE标志，它们主要关注准确性，并且没有明确要求AI必须改善患者的预后，这主要是因为此类试验尚未进行。

因此，这极其关键，因为临床试验，每次都需要证明的是改善患者预后。这很难定义和证明。但你必须这样做才能通过临床试验。是的。关于准确性是目前唯一被指定为重要的指标，我们经常看到诸如“这种新的AI工具现在在发现癌症方面与放射科医生一样好”之类的文章。到目前为止，我想说的是，重要的是要对这样的标题持一点怀疑态度，因为正如我们在这里看到的，这不仅仅是某种定量的……

准确性的指标，你需要实际看到这个工具在现实世界中被部署和使用，才能真正相信并证明它运行良好，并且实际上可以帮助患者。我认为这是一个很好的提醒。

但是，让我们不要那么悲观。让我们继续讨论一些有趣的文章。第一篇来自The Verge，标题是《OpenAI推出Jukebox，一个生成特定类型音乐的新AI模型》。所以，这篇文章是关于4月30日OpenAI发布、宣布了一个名为Jukebox的新生成模型，这是一个生成音乐的神经网络，包括基本的唱歌，

作为各种类型和艺术家风格的原始音频。根据OpenAI的说法，当你向这个模型提供你所依赖的类型、艺术家和歌词时，Jukebox将输出它在其神经网络中生成的原始音乐。所以，如果你听这个东西，我想如果可以的话，我们现在会尝试插入一些声音…………

令人印象深刻的是，我们已经通过AI达到了这一步，我们有了某种音乐，你可以分辨出它有一些类型的传统标志，你可以听到一些计划中的歌声和歌词。但当然，它听起来仍然有点奇怪。最重要的是，有人批评OpenAI只是

大量抓取原始歌曲来训练Vignola，而没有真正征得许可。Sharon，我们在开始录音之前听了几首歌。所以我很想知道你对这个模型及其音乐的感受。

是的，所以不同类型音乐的旋律和整体基调绝对是不同的。有时你可以捕捉到实际的艺术家及其一般的风格。我认为有趣的是，有时听起来像

呃，唱歌是用不同的语言。特别是当你看到歌词时，它听起来一点也不像人声。呃，但你可以看出这是某种歌唱。呃，所以这真的很令人感兴趣。嗯，我可以看出它会随着时间的推移而改进。嗯，所以我认为这仍然是一项非常酷的作品，而且他们展示了如此多的不同样本。我认为关于权利的一切都是，绝对是一个问题。嗯，

是的。即使对于ImageNet和CIFAR 10等等，嗯，它们是，嗯，用于……用于……用于计算机视觉的非常……非常基础的数据集，嗯，

他们并没有真正征得许可来抓取它们。所以我认为，在研究中，我们可能应该更多地考虑这类事情，尤其是在这里，音乐中涉及明确的许可。

所以这表明，随着这些模型的发展，艺术家们可能会对AI生成自己的声音或类似的声音有不同的看法，这当然是很奇怪的。

关于歌词，它们很不人性化，需要注意的是，歌词的调节是由一个与研究人员合作的AI模型完成的。研究人员基本上查看了AI提供的不同选项，并挑选出他们认为不错的选项。

所以它不像模型从头开始生成一切。你实际上有一个单独的模块用于歌词，它是基于文本的，并且完全独立。但是，如果你将其与之前的工作进行比较……

作为一项工程成就，以及在不同风格的歌唱和音乐的组合创作方面，它绝对是在推动神经网络迄今为止所做的工作。

是的，是的。当然也有一些明显的局限性，正如我们所看到的，有时模型是在人类的帮助下或OpenAI研究人员的帮助下生成歌词的。此外，文章还指出，例如，虽然生成的歌曲显示出局部音乐连贯性，

遵循传统的和弦模式，甚至可以包含令人印象深刻的独奏，但我们没有听到熟悉的更大的音乐结构，例如重复的合唱。所以这仍然没有完全实现。那种

结构可能需要某种记忆，而神经网络在克服和尝试管理方面面临着巨大的挑战。所以这是有道理的。是的。为了更技术化一点，这种方法是基于对歌曲进行编码、将其分割，然后以某种方式重新排列。所以它也不是完全独立于其他任何东西的。

我很想知道，Sharon，你已经使用过生成对抗网络，它们与之相关，因为它们可以根据某些输入生成图像，并且在某种程度上也可以被视为创造新的艺术。所以，是的，你使用GANs的体验如何？你整天只是盯着它们的输出看，这让你抓狂吗？或者这种体验是什么样的？

明确地说，GANs可以产生任何类型的输出，包括音频。所以它们也能做这样的事情。我相信DeepMind在这方面做了工作。

以及它们的VAE或生成模型，可以广泛地生成图像、文本、音频、音乐，甚至人类语音，就像你期望Alexa或Google Home或Siri那样真实地产生。我想说的是……

浏览样本是相当……费时的。我想这也会成为你评估这些网络的方式。呃，很多都是定性的，嗯，

因为我们没有基准可以用来工作，也没有我们可以轻松评估这些模型的指标。我确实发表了试图以众包方式做到这一点的工作，但是当你训练你的模型团队时，

作为一名研究人员，你可能会浏览样本以调试你的模型并了解如何改进它。我可以想象，在这种情况下，听这些东西可能会非常具有挑战性，因为对于图像样本，你可以很容易地一次查看多个样本。但是在这里，你必须按顺序收听才能了解发生了什么。

有趣。是的，我已经看过很多GAN的输出，正如你所说，它们可以是图像或其他东西。但是图像可能更先进。它们已经做了很多工作。

我注意到的一件事是，当你看到越来越多的这些AI输出时，你会意识到，默认的、平均的输出很快就会变得无聊，因为你大概会明白，“哦，这就是它所做的事情”。在经历了最初的一些新奇体验之后，它就不一定有趣了。在图像和艺术领域，看到现在可能有十几位，也许

六七位，十几位非常活跃的艺术家使用GANs，这实际上很有趣。

其中一些人说，这不仅仅是拥有算法，而是关于如何使用它来创造有趣的东西，因为默认情况下你会得到非常通用的东西。所以我认为，我们可以在音乐和音频领域期待类似的事情，最终它将成为艺术家创作更有趣作品的工具。实际上已经有一些这样的工具了，但是随着我们取得更多进展，也许它会变得更加民主化，更多的人可以参与其中。

好的。所以这是AI领域的一种很酷的新方法。现在，如果我们转向机器人技术，我们的下一篇文章是《认识Moxie，一个帮助儿童进行社会情感学习的社交机器人》。

因此，社交机器人初创公司Embodied正在推出一个名为Moxie的新机器人，这是一个针对6至9岁儿童的社交伙伴。文章说，Moxie旨在通过基于日常游戏的学习和引人入胜的内容来促进社会、情感和认知发展。

为了更具体一点，目标是通过日常互动，甚至只是几分钟的时间，Moxie将帮助儿童发展社会和情感技能。Embodied由Paolo Pergi……

Perjanian创立，我们第一次见到他是在2010年，当时他退出了他作为Evolution Robotics首席执行官开发的薄荷味地板清洁机器人。Evolution在2012年被iRobot收购，将薄荷味变成了iRobot Brava，并将Perjanian变成了iRobot的首席技术官。

他于2015年离开iRobot，并在第二年创立了Embodied。作为一名从事机器人研究的人，你对此有什么看法，Andre？是的，这很有趣。文章指出……

我们之前也讨论过这个问题，在过去十年中，出现了一波这种社交家用机器人，但它们的表现并不特别好。所以有三家大型知名公司生产这种可以放在你桌子上、和你说话并表达情感的小型机器人。

它们都未能成功，部分原因是价格非常昂贵，部分原因是Alexa和类似的东西出现了，而且价格便宜得多，原因有很多。

这看起来很有趣，因为它试图更加专注。它不仅仅是一个更具情感表达的Alexa替代品。它实际上非常非常专门地用于帮助儿童发展。我非常喜欢它的外观。我认为它设计得非常好，而且……

可能工程设计也很好。我确实想知道，我想，这是否是大多数孩子除了与其他孩子和父母互动之外真正需要的，对于没有自闭症或类似问题的孩子，这种方法是否真的有益。

但就我个人而言，我很想玩玩它，看看它是如何工作的。如果有研究支持，我认为这是一个非常酷的想法。你对此怎么看，Sharon？我认为一方面，这是一个非常有趣的目标市场，尤其是在

尤其是在关于孩子们在社交媒体上花费更多时间，并且可能没有像以前那样学习这些社会情感技能的研究越来越多的时候。所以这绝对是一个我认为至少父母在孩子成长的过程中会考虑的领域。

嗯，我认为在自闭症领域，我听说过……例如，一个自闭症儿童与Siri非常亲近，Siri是这个孩子的非常好的朋友的故事。嗯，所以它可能会朝着这个方向发展。呃，然而，除了这个之外，我没有看到太多其他的东西。我不清楚……

这个市场会有多大的接受度，会接受一个机器人。

作为解决这个问题的方法，尤其是在父母试图减少屏幕时间的时候。只要他们可以说服别人，这可以减少屏幕时间，即使它是一个屏幕，它也专注于情感行为，那么父母可能更愿意购买这样的东西。我真的很认为这将是像父母购买这样的东西作为市场。是的。

是的，我同意。看看这是否有效很有趣。文章确实指出，Embodied表示，它已经通过与大约100个家庭合作一年多来，对从孩子们那里获得的对话进行了训练。这项测试使该公司能够识别某些共同主题，例如学校、朋友、欺凌、医生等等。

也许这个想法是，这可以成为父母的一种工具，你知道，他们可以使用它来尝试追踪孩子的精神健康状况。当然，孩子们有时很难完全对父母坦诚。所以也许这是一个很好的辅助工具。

我认为这很有趣。很容易将其视为一种反乌托邦式的观点，你知道，我们现在只需要机器人来抚养我们的孩子。但由于它显然旨在与父母、朋友和正常的互动结合使用，我认为如果做得正确，它可能会非常有用。

就这样，非常感谢您收听本周Skynet Today的Let's Talk AI播客。您可以在skynettoday.com上找到我们今天讨论的文章，并订阅我们的每周通讯，其中包含类似的文章。无论您在哪里收听播客，请订阅我们，如果您喜欢这个节目，请不要忘记给我们评分。请务必收听下周的节目。

AI Fails to Read PDFs, OpenAI Jukebox, and more! 25:46 Share

Last Week in AI

Deep Dive

Shownotes Transcript

AI Fails to Read PDFs, OpenAI Jukebox, and more!