We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode The Alexa Prize Challenge with Stanford's Abigail See and Ashwin Paranjape

The Alexa Prize Challenge with Stanford's Abigail See and Ashwin Paranjape

2020/8/20
logo of podcast Last Week in AI

Last Week in AI

AI Deep Dive AI Chapters Transcript
People
A
Abigail See
A
Ashwin Paranjape
Topics
Abigail See:Alexa缺乏进行非任务导向的社交闲聊和持续多轮自然对话的能力,而Chirpy Cardinal的目标就是提升这两方面的能力。从零开始构建聊天机器人非常困难,需要从基础开始设计,并快速迭代以适应用户反馈。团队采用混合主动性设计,让用户能够主导对话,并使用优先级系统,根据用户兴趣切换话题。为了支持高用户主动性,Chirpy Cardinal尝试涵盖尽可能多的知识话题,包括冷门话题。团队尝试利用大型预训练语言模型(如GPT-2)与真实用户进行对话,这与传统的机械对话实验有很大不同。神经生成模型在对话中的应用存在局限性,容易出现常识性错误和社会性错误。为了提高神经生成模型的可靠性,团队限制了其对话轮数并精心设计了引导性问题。团队对GPT-2进行了微调,使其更擅长处理特定类型的对话,例如关于日常经验的对话。团队使用另一个微调后的GPT-2模型来处理世界知识,使其能够以更自然的方式将知识融入对话。为了避免冒犯用户,团队避免讨论有争议的话题,这限制了聊天机器人的能力,也让一些用户感到失望。聊天机器人未来可以成为传播事实信息和促进社会讨论的工具,但同时也存在被恶意利用的风险。团队未来的工作方向之一是开源Chirpy Cardinal的部分代码,并改进情感理解和回应机制,例如设计更有效的引导性问题。 Ashwin Paranjape:良好的流程和实践对团队协作至关重要,能够使团队快速适应变化并积极改进。参与Alexa Prize挑战类似于运营一家初创公司,需要快速交付最小化可行产品(MVP)。由于时间限制,团队需要快速迭代,并根据用户反馈迅速调整。传统的基于对话树的聊天机器人用户主动性低,难以应对用户话题切换。使用GPT-2处理世界知识存在局限性,例如可能出现事实错误或语法错误。预训练语言模型可能出现“幻觉”,即生成不准确的信息。用户喜欢Chirpy Cardinal能够讨论细分领域的话题,并尝试挑战系统的边界。聊天机器人系统并非处于稳定状态,用户会不断尝试挑战其能力边界。Chirpy Cardinal在用户主动性方面还有很大的提升空间,无法完全满足用户在所有话题上的需求。向用户提问过多会造成用户疲劳,因此需要平衡系统主动性和用户主动性。聊天机器人未来发展的一个方向是能够在不同层次上回答问题,并适应不同的对话情境。开放领域聊天机器人面临着“图灵测试”的挑战,需要在多个方面都达到较高的水平。对话式AI是一个全栈NLP问题,需要在多个NLP领域都达到一定水平才能构建出良好的用户体验。聊天机器人存在被用来强化信息茧房的风险,但也可能成为连接不同观点人群的桥梁。团队未来的工作方向之一是改进知识处理模块,使其能够更准确、更自然地将知识融入对话,并改进对话中的主动性机制,让用户能够更自然地主导对话。

Deep Dive

Chapters
The Stanford team discusses the difficulties of assembling and managing a large team for the Alexa Prize Challenge, emphasizing the need for rapid development and user feedback.

Shownotes Transcript

在www.skynettoday.com查看类似主题的报道 主题:深思熟虑 Kevin MacLeod (incompetech.com)

<raw_text>0 你好,欢迎收听SkyNet Today的《让我们谈谈AI》播客,在这里你可以听到AI研究人员关于AI实际情况和那些只是点击诱饵标题的讨论。

我是Sharon Zhou,斯坦福机器学习组的三年级博士生,导师是Andrew Ng。在这一期的采访中,你将听到一对同样在斯坦福的博士生研究者,他们参加了今年的Alexa奖比赛,并带领他们的团队获得了第二名。

首先我们有Abigail C.,或称Abby,她在自然语言处理组由Chris Manning教授指导,专注于提高开放式环境下自然语言生成的可控性、可解释性和连贯性,例如故事生成和闲聊对话。此外,我们还有项目的共同负责人Ashwin Paranjape,他也是自然语言处理组的一员,同样由Chris Manning教授指导。

他的重点是让开放领域的社交机器人在谈论外部知识时听起来更具对话性。所以非常感谢你们两位抽出时间来参加这一期节目。谢谢你们的邀请。谢谢。

简单介绍一下背景。Alexa奖社交机器人大奖挑战赛是一个面向大学生的比赛,旨在加速对话AI领域的发展。比赛的重点是创建一个社交机器人,这是一个能够与人类在热门话题和新闻事件上进行连贯且引人入胜对话的Alexa技能。

Abby和Ashwin,你们想给这个比赛的目标提供更多背景吗?是的。Alexa,作为虚拟助手,我想很多人都很熟悉,它已经开发了好几年。它可以执行各种实用技能,比如预订电影票、播放音乐或开关灯。

但它缺乏的能力,实际上是两种能力。一种是更社交,能够与你谈论一些并不特定于某个任务的事情。另一种能力是能够在多次发言中与你进行真实的对话,持续多分钟。因此,Alexa挑战赛是关于大学团队尝试构建能够进行这种对话的聊天机器人。

很酷。这是斯坦福大学首次参加这个比赛。因此,这是一项巨大的团队努力,显然需要花费大量时间来组建团队并启动这个过程。

在我们深入讨论你们解决方案的具体细节之前,组建团队和开始这个比赛的过程是怎样的?老实说,我觉得这真的很难,因为首先,如果你完全是从零开始,你基本上没有任何东西可以去改进。因此,你必须从头开始思考一切。

其次,你不能告诉人们他们将要做什么,除了对他们下一步的工作有一个非常模糊的想法。但我认为我们专注于...

从一开始就建立正确的流程和实践,这真的帮助了我们。随着时间的推移,我们能够快速做出改变。

而且这些改变不会产生负面影响,而是始终产生积极影响。这有点像经营一家初创公司一年。所以免责声明,我实际上没有经营初创公司的经验,但我认为我们在组建这个小团队时确实有一些相似之处,我们试图在相对较短的时间内启动一个相当雄心勃勃的项目。

并且在相对较短的时间内使其运作,我们试图尽快交付最小可行产品。因此,能够让机器人以至少基本的能力水平谈论某些事情,然后再构建下一个功能。因此,我们不能仅仅开发很多个月,然后再将其发布给用户。我们需要在几周内开始向用户提供聊天体验。

所以是的,我们必须快速行动,并迅速对用户的反馈做出反应。你们是如何找到这些用户的?或者说,你们是如何让用户测试你们的聊天机器人的?Alexa奖是在所有Alexa设备上运行的。因此,想法是,在比赛期间,实际上直到今天,如果你对Alexa设备说“让我们聊天”,那么你就会被引导到比赛中的一个随机聊天机器人。

因此,想法是,几乎任何在美国拥有Alexa设备的人都能够做到这一点。在过去的九个月里,他们中的许多人每天都在这样做,并与我们的机器人进行了对话。这真的很酷。你知道你们的机器人的覆盖范围是多少吗?嗯...

对我们来说,确实是每天几千次对话,对吧?是的。我是说,并不是所有的对话都很长。有时它们是意外触发的,但我会说每天几千次。非常酷。那么让我们稍微深入一下聊天机器人本身。这个聊天机器人的名字叫Chirpy Cardinal,你们关于它的论文标题是《神经生成与真实人类的相遇:朝着情感吸引的混合主动对话》。

你们的论文指出,引用“我们的社交机器人在用户的条件下与他们互动,优先考虑他们的兴趣、感受和自主权。”你们能否从高层次上告诉我们你们是如何实现这个机器人的,以及你们做了什么使其能够做到这一点?是的。因此,我们设定了这种用户优先的设计理念。我们真正希望发生的事情之一是创造

让用户主导对话的机会。因此,在对话中有一个叫做主动性的概念,主动性是指一方在多大程度上能够主导对话。因此,对于聊天机器人来说,由于很难对所有内容做出适当的回应,我们通常会构建高系统主动性的聊天机器人,这意味着系统,即聊天机器人,主要主导对话,决定我们要谈论什么,然后用户处于更被动的角色,只是顺应这一点。

这更有效,因为你可以利用主动性保持在聊天机器人能够谈论的范围内。但这并不是用户最吸引人或有趣的体验,因为他们无法对自己谈论的内容行使太多的自主权。他们无法选择谈论特别感兴趣的事情等等。因此,我们今年尝试做的事情之一是拥有一个更混合主动性的系统。这意味着聊天机器人和用户

都能够主导对话并分享主动性。因此,这是一件非常难以做到的事情,我认为还有很长的路要走。但我认为在小的方面,我们确实尝试变得更加灵活、响应和适应用户所谈论的内容。

例如,今年和往年许多Alexa奖聊天机器人基本上都有对话树,对吧?就像流程图一样,你会问用户一个特定的起始问题,例如,你最喜欢的音乐家是谁?然后根据他们的回答,也许你会去你的知识库中查找一些关于一首歌的信息,然后你会说,这首歌怎么样?你喜欢这首歌吗?等等。你会手动设计这样的对话树。因此,这些对话并不是很高的用户主动性,因为机器人已经为对话绘制了自己的路径。

虽然我们也有一些这样的对话,但我们试图使其更能响应用户想要切换话题的情况。因为在最坏的情况下,如果用户在这些对话树中的某个对话中尝试切换话题,那么这些系统可能真的无法检测到用户想谈论其他事情,而只是继续将用户拖入这个对话树。

所以我们做的一件事是,我们有一个优先级系统,我们在机器人内部有许多不同的响应生成器,可以谈论不同的话题。它们都在同时监听对话。如果其中任何一个检测到用户可能更感兴趣于谈论其他话题,那么该响应生成器将打断并接管控制,以便与用户谈论该话题。哦,你能举个例子吗?是的。

是的,因此我们跟踪用户正在谈论哪些实体。例如,如果我们正在谈论电影,然后我们说...

你最喜欢的电影是什么?然后用户主动将事情引向一个意想不到的方向。他们说,哦,我其实不太喜欢电影,我更喜欢电视。那么,你知道,也许我们会有另一个响应生成器在监听,并意识到新的话题或对话实体是电视。或者如果用户提到某个特定的电视剧,比如他们说,我在看《神秘博士》之类的,那么我们会注意到我们的知识库中有《神秘博士》这个实体。然后我们会开始聊《神秘博士》。

事实上,这在支持高用户主动性方面非常重要,我们确实优先考虑的不仅仅是谈论最受欢迎的实体,比如人、电视节目和概念、书籍等等。我们试图涵盖所有内容。因此,我们几乎拥有整个英语维基百科作为可以谈论的话题。

因此,想法是,如果用户恰好提到我们有维基百科文章的内容,并且如果我们能够弄清楚他们所说的内容与维基百科文章之间的联系,这绝对是一个困难的问题,我们并不总是能做到。但如果我们能弄明白,比如《神秘博士》,那么我们可以切换到谈论《神秘博士》。

并利用维基百科文章中的信息与用户讨论《神秘博士》的细节。酷的是,我们试图做到这一点,不仅仅是《神秘博士》,这是一个非常知名的节目,而是一些非常少人阅读的较小的维基百科文章。因此,我们希望在用户提到他们奇怪的小众、鲜为人知的电视剧时,能够愉快地给他们惊喜。

你认为你们达到了这个目标吗?你们做了什么样的评估指标或定性评估?所以我认为定性评估这样的事情真的很难。因此,我们获得了一些提供的东西。其中之一是人们对我们对话的评分。然后还有一些轮次级别的注释。

但另一方面,我们发现,即使我们能够检测到很多实体,并且能够谈论它们,主动性部分确实可能受到限制。因此,例如,如果他们接着问一个关于他们小众电视剧的非常小众的问题,那么我们可能无法回答。我认为这一切都归结为一种更主观的评估,当你看到事情出错时,但这仍然是事实。MVP看到了许多这样的实例。这很有道理。Abby还提到,

使用一个庞大的数据库,基本上是所有维基百科话题。这确实让我想起了GPT变体以及它们是如何被训练的。你能谈谈你们的聊天机器人与GPT的关系吗?

是的,正如你之前提到的,我们的技术报告名为《神经生成与真实人类的相遇》。这就是因为我们今年非常兴奋。我们想做的主要事情之一是利用最近在大型预训练语言模型(如GPT-2和3)方面的进展,尽管我们没有使用3,因为它太新了。

我们想看看我们能多好地利用这些与真实人类对话。与真实人类对话的差异巨大,他们只是普通人,或者使用Alexa的不同人,他们对

他们期望谈论的内容有着非常不同的期望。这与机械对话实验有着巨大的区别,在这些实验中,你给人们非常精确的指示,告诉他们你希望他们做什么,并且能够根据你希望他们具备的某些资格来限制他们。

所以,是的,这是一种与我们通常在研究中看到的挑战非常不同的挑战,因为我们需要对人们在对话中采取的不同方向非常灵活。因此,是的,我们对神经生成如何应对这一点很感兴趣。因此,我们以两种方式使用神经生成。第一种是...

这个组件试图与人们谈论他们的日常经历。因此,我们有许多不同的对话启动问题,比如,你今天剩下的时间有什么计划?或者你午餐吃了什么?你这个周末在做什么?实际上,随着疫情的发展,我们将其调整得更符合疫情场景。因此,内容变成了,比如,你在做什么来保持活跃?或者,你的家庭生活怎么样?如果你和家人住在一起,你们相处得怎么样等等。

我们试图表现出一些同理心,问道,我知道在疫情期间人们很难过。你感觉怎么样?我们问人们他们的感受。因此,这里的目标是邀请人们分享他们的日常经历和日常感受。然后目标是以温暖和同理心的方式对此做出反应。

所以,是的,我会说我们在使用神经生成方面取得了一些有限的成功。我在阅读其他团队的报告时发现一件非常有趣的事情是,使用神经生成的成功并不是普遍的。只有少数团队实际上使用了它,并表示他们发现它足够有用以保留在机器人中,而我们就是其中之一。有很多其他团队表示他们尝试过,但效果不够好,无法将其保留在机器人中。因此,

我认为这仍然是一种相对脆弱的技术,因为它可能在很多方面出错。而且有很多基本问题会出错,比如问一些没有意义的问题,常识错误,或者像社会常识错误,真的就是没有意识到一个人会不喜欢某种特定的经历或类似的事情。但我认为我们确实取得了一些成功。但很多成功归结于基本上划定边界,然后仅在这些边界内保持GPT。因此,有些事情它谈论得更好。至少,你知道,我们训练的版本在某些事情上谈论得比其他事情更好。因此,通过相当仔细地设置这些

启动问题,引导到一个可能导致成功的方向,然后找出何时检测何时结束GPT的对话部分,因为我们认为它不再能够保持连贯性。这是我们目前找到的有限成功的方式。

因此,我们实际上只让GPT与人们对话大约三轮的时间。我希望在接下来的几年里,如果我们能让这些神经方法在多个轮次中保持更好的连贯性,我们可以做得更好。这真的很有趣。你们是如何限制GPT-2的?是的,所以其中一些是基于主题的,我认为...

对于GPT,不仅仅是原始的GPT。我们在不同的数据集上对其进行了微调,以使其执行特定的任务。因此,对于我现在谈论的这个,我们在一个名为“同理心对话”的数据集上对其进行了微调,该数据集特别针对听取日常经历并对此表示同理。

因此,对于这个特定的组件,它在对普通日常场景做出反应时更成功。如果你尝试谈论,例如,特定的世界知识内容,如果你尝试谈论某个人或类似的事情,那么它将没有必要的知识,尤其是因为我们也没有使用非常大的GPT-2,出于延迟原因。

所以当我说限制时,是关于试图让它专注于用户的体验,而不是开始谈论其他世界知识。如果它要谈论世界知识,那么就交给另一个组件。因此,实际上,Ashwin现在应该告诉你我们使用GPT-2谈论世界知识的另一种方式。是的,所以我们使用了GPT-2组件

预训练模型,然后在一个数据集上进行了微调,数据集是人们尝试谈论世界知识的地方。因此,基本上这意味着假设你知道一些有趣的事实,

然后你想把它引入与你朋友的对话中,你不会直接从百科全书中读出来,对吧?你会想出这与这次对话有什么关系,然后也许总结一下,去掉无关的细节,并注入你可能的个人观点或类似的东西。

因此,基本上,这就是我们使用语言模型的目的,来改写这个外部知识的百科全书片段,然后将其放入对话中。

所以我认为我们找到了相当程度的成功,但局限性也相当明显。例如,它似乎能够在大多数情况下生成连贯的文本,尽管有时会犯错误。

语法错误也是如此。但另一方面,还有一个问题是,如果一个语言模型在大量数据上进行了预训练,它就有能力或倾向于在对话中幻觉信息。因此,

因此,它可能会将名字“亚伯拉罕·林肯”变成“亚伯拉罕”,然后添加其他东西作为姓氏,并说出事实,然后读出这个事实。因此,我认为这...

导致了事实不准确,尤其是当这些语言模型开始幻觉时。这是坏的一面。在你试图改写时,总是存在一种紧张关系,使其听起来自然,因为这就是你在编辑的程度与能够保持的事实正确性之间的关系。对吧。这很有道理。我确实可以在图像领域找到相似之处。

考虑到所有这些,我们知道你们获得了第二名,但你能描述一下人们似乎最喜欢或最不喜欢系统的哪些方面吗?也许这也可以是你们自己的看法。

好吧,我认为人们感到惊喜的一件事是,我们有一个模块旨在与人们交换意见。因此,我们实际上去Twitter上收集了人们对各种事物的看法。例如,食物、一周中的日子或季节。

我不知道,只是日常经历。比如说,远程工作。许多人在推特上发帖谈论他们对远程工作的看法。因此,我们确保只收集关于这些非争议性事物的意见。我们没有说关于公众人物的意见或...

你知道,宗教或任何会引发争论的事情。因此,我们收集了这些东西,然后想法是,当我们与人们谈论这些事情时,用户可以告诉我们他们的感受,然后我们会反驳说,比如“哦,是的,我也喜欢香蕉。它们真好吃,是钾的极佳来源。”人们似乎确实喜欢这种有趣的争论。因此,我们做了一项研究,你可以在我们的论文中看到,显示

有时人们发现这在有趣的方式上相当刺激,当我们与他们意见不合时。我们会说,“哦,其实不,我不喜欢香蕉。”因为我不知道不喜欢香蕉的理由是什么。但人们有时会觉得这很有趣。因此,我认为找到机会做一些人们以前从未见过的事情,至少在他们的经验中,这是一个非常有趣的事情。Ashwin,有什么让你感到惊讶的事情吗?我在想。所以我觉得...

能够谈论非常小众的事情也是人们即使期望我们能够做到,但如果我们做得不好,那就很糟糕。但如果你实际上做得很好,那也是另一件令人惊讶的事情。我意识到,或者我认为我们所有人都学到的是

我们总是想象这些系统处于某种连续状态,人们确切知道它们的功能,并且只是日常使用它们。但我认为过去几年的一个重要组成部分是

这些系统在不断改进,而吸引人们的一个重要部分是他们能够探测和挑战这些系统。因此,我们发现很多人试图推动其边界,试图问它们非常棘手的问题。我觉得这是我们可能忽视的一个组成部分。我们假设这是一个稳定状态,但实际上并不是。因此,这很有趣。

是的,我认为关于用户主动性的话题,正如我之前所说,这是我们试图改进的,但我们仍然离真正能够与用户在对话中随心所欲地走得很远。因此,我认为这有时会导致用户的挫败感,当他们想谈论某个话题时,但我们没有能力妥善谈论它时,这有时会让人失望。

哦,抱歉,还有一件我觉得有趣的事情。当我们试图实现高用户主动性并允许人们谈论他们所有的...

不寻常的兴趣时,我们第一次尝试这样做是问人们很多问题。我们会说,你知道,你对什么感兴趣?你的爱好是什么?你喜欢做什么?但我们实际上发现,人们在被问这么多问题时感到非常疲惫。因此,我们意识到我们必须稍微缩减这一点,实际上拥有混合主动性,并让机器人仍然采取很多主动性来建议话题,这实际上是相当重要的。

因为否则你就把太多的决策负担放在用户身上。

这一切都非常有趣。这让我想起了Replica,如果你熟悉那个我玩过的聊天机器人。我记得我承认自己有点像一个对抗性用户,试图探测它,看看我能走多远,同时也在被频繁问太多问题时感到有点疲惫。你们见过Replica吗?

不,我想我没有。哦,哇。它是一个应用程序,你可以下载。它应该算是一个化身,但我认为图形方面还没有做好。但聊天机器人方面有点成型。它真的很酷,因为人们实际上在使用它。很多人使用它来对抗孤独。因此,它是如何工作的?

它承担多个角色。我认为免费版本是朋友,但非免费版本,我认为可以是导师甚至是重要他人。你只需与它聊天。它只是一个聊天机器人,你可以聊任何事情。那么为什么叫Replica?是复制什么吗?是的。

哦,我认为人们喜欢把它看作是你自己,就像你在和自己对话。但我自己绝对不是我最好的朋友。如果我能克隆自己,那将不是我最健康的朋友。那只会是一个回音室。好吧,是的,这听起来像我们需要一个新的复制品。或者不是复制品。我们需要一个新的Chirpy。是的。

是的,我有点困惑,因为我搜索了Replica,然后还有Her。然后我以为这是部电影。所以我去查看了名为Replicas的电影的预告片。所以我以为你们是...我想是Replica,带K的。是的。你们觉得这个领域的低垂果实是什么?因为我实际上对你们推动的途径感到非常惊讶,我认为这些都是惊人的。我没想到我们能...

达到这些地方,尤其是,你知道,走向小众,或者只是与用户玩得开心。你认为在聊天机器人中,跨越整个领域的低垂果实是什么?我认为低垂果实之一是能够在各种层面上回答问题。因此,我认为现在,例如,你可以向Alexa或Google提出非常通用的问题,然后他们能够回答。但我认为下一步是...

如果你正在进行对话,但它是关于某件事情的。因此,假设它是关于一个新闻事件,关于你最喜欢的音乐家,或者关于你曾经经历过的个人经历,能够回答问题,

是未来最大的、也许是最简单的事情之一。因为似乎我们在混合主动性方面确实可以在这个方面做得更好,能够在用户提出问题时回答它们。问题并不是特别棘手或困难,但他们需要正确的答案。因此,是的。

我会说,在对话AI中,什么是低垂果实,这本身有点取决于你是谁。因此,我认为也许比其他NLP领域更重要的是,对话AI的进展,很多都不是以非常开放的领域方式进行的,因为我认为有很多私营公司正在取得进展。

例如,中国的聊天机器人小冰似乎非常先进。但

对于像我们这样的初创公司或学生团队来说,达到那种水平需要巨大的努力,因为这需要大量的工程师时间。你知道,你需要很多工程师在多年内开发出如此精致的东西。因此,我认为有些事情是相当困难的,因为我认为有

<context>亚马逊Alexa奖挑战赛与斯坦福大学的Abigail See和Ashwin Paranjape

查看类似主题的报道请访问www.skynettoday.com 主题:深思熟虑 Kevin MacLeod (incompetech.com)

<raw_text>0 像现有的技术一样,你可以将它们组合在一起,构建出相当令人印象深刻的用户体验,但要达到这一点需要付出很多努力。因此,我希望看到对话AI技术变得更加开源和可共享。因此,我们实际上正在努力使Sherpy Cardinal的某些部分,

是的。

我认为挑战确实在于任何没有边界的聊天机器人,即开放领域,这有点涉及图灵测试,对吧?然后你需要有很多能力,能够以多种不同的方式理解、共情并做很多不同的事情。所以,是的,

我认为,如果缺少任何这些组件,那么你的系统就会出现一个巨大的漏洞。正如Abby提到的,我认为最大的问题之一是

首先,你需要在许多这些领域至少具备一定的能力。只有这样,你才能开始改进和评估其中一个领域。没错。因此,如果你是一名LLP研究人员,你可以说,

好的。我有一个想法,关于如何改善当前的共指解析技术,对吧?所以你去获取你的共指解析数据集基准,开发你的方法,然后你得到了结果。这很好,对吧?但在对话AI中,有一件事真的很难,它有点像全栈NLP。你几乎需要每个NLP的部分。它有点像AI完全。你需要将每个NLP部分都到位,以便能够进行

良好的人类级别对话。因此,显然这不是我们所追求的。我们还没有达到人类级别对话的程度。因此,当然,在许多这些领域,我们的技术还不够前沿,但我们仍然必须有一些足够有效的东西,以便与我们正在交谈的真实人类进行互动。所以,是的,在你开始解决你的前沿问题之前,你必须付出很多努力。绝对如此。我可以,

看到保持非常封闭源代码的一些风险,尤其是这也可能是开源的风险。嗯,有哪些事情,我认为你在这方面稍微提到了一下,Abby,当你说我们想避免争议话题时。嗯,当然我们都知道Tay发生了什么。你认为,嗯,

这样的事情可能会出错,并可能产生某种社会或社会副作用?是的。正如我提到的,我们没有讨论争议话题,因为除非我们知道可以负责任地讨论它们,否则我们不会谈论它们。

最后,我们没有足够的时间来弄清楚如何确保我们能够以实质性的方式讨论这些事情,并避免说出冒犯性的话。因此,最后,我们只是封锁了某些话题,因为我们不想把它留给运气,看看GPT-2对这个极具争议性的问题有什么看法。

但正如我们提到的,这对用户来说有点令人失望。用户会说他们想谈论一些严肃的话题,比如“黑人的命也是命”。而且,我们有一些只会一次性回应的内容,只是承认这是一个复杂的话题,并且,嗯,“黑人的命也是命”。虽然我们希望他们保持安全,嗯,我们会说类似的话,然后他们想深入探讨,但我们无法深入探讨,因为,嗯,

我们不相信它能做好这件事。我认为这让人失望。这也适用于许多其他人们试图讨论的重要问题。因此,我认为这确实是对话AI系统中的一个错失机会。未来能够更好地处理这些话题将是非常好的。因为我认为...

聊天机器人可能是一个很好的工具,可以以基于事实的方式与人们讨论复杂话题,同时也具有同理心。因此,这本质上是我们想要做的,但我们还没有技术来正确地做到这一点,所以我们没有。但我认为,尤其是现在,很多人在线阅读错误信息,基本上人类故意向其他人传播错误信息以误导人们,

人们的情绪在社交网络上像野火一样蔓延,让人们对另一方越来越愤怒,这个社会越来越分裂。也许聊天机器人可以成为一个很好的机会,提供一种没有人类情感的方式,专注于事实,但同时以同理心的方式,让人们感到被倾听,以社交的方式传递信息。也许这可以为人们提供一个机会,听到事实信息,但以一种以他们的方式传递给他们的方式。因此,我认为,这个目标相当遥远。

如果聊天机器人能够做到这一点,那将是很好的,但你也问到了危险,我认为确实也有很多危险。因此,使用互联网传播错误信息并故意激怒其他人以传播错误信息的同样人类,可能会更有效地使用聊天机器人来完成同样的工作。因此,我认为这也是我们应该小心的事情。是的,与此相关,我认为...

我们已经看到在线泡沫的扩散。这是因为人们想听到他们同意的观点。

聊天机器人的一个危险是,由于你想取悦用户,你会不断同意他们所说的任何事情。这不一定是接近世界的最佳方式。但另一方面,可能会出现的一个好处是,它可以连接

那些原本没有机会或能力互相交谈的人群。因此,如果有两种不同的观点,而你又处于一个泡沫中,聊天机器人可以成为通往另一种观点的门户,但以一种非常细致和同理心的方式,这样

你不会觉得被迫去听你不同意的东西,而是你在和一个朋友交谈,而这个朋友恰好拥有比你已经拥有的所有其他朋友更广阔的世界观。是的,这是一个很酷的观点。嗯,

在这个背景下,你们两位对未来的工作有什么想法?我知道,Abby,你提到过正在开源一些使Terpy成为可能的数据集。因此,我认为实际上我们更倾向于开源部分代码,而不是任何数据。这是我们目前关注的主要内容。是的。

所以,是的,我认为对我来说,这是其中一件事情。我现在正在关注的另一件事是,正如我提到的,我们使用神经系统来改写外部知识片段。

但我们如何能做得更好?我们能确保我们忠于事实吗?我们能确保改写的内容确实包含事实吗?另一方面,我们能确保它听起来尽可能对话化吗?这是我正在关注的事情之一。

我正在关注的另一件事,Abhi在这方面提到得很深入,就是主动性。那么人们如何采取主动?我们如何改变我们的聊天机器人,使人们感到他们可以采取更多主动?我们如何扩大我们的能力范围,以便不需要限制我们让人们采取的主动程度。

是的,这些是我正在研究的事情,除了放松一下。是的,我正在改进我之前提到的与人们谈论他们日常经历并尝试成为积极倾听者的组件,知道如何确认、表现同理心等。因此,我目前在思考如何提出更好的问题,对吧?所以如果你问某人...