We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Trust and Fraud Detection at Scale: Instagram’s Stephanie Moyerman

Trust and Fraud Detection at Scale: Instagram’s Stephanie Moyerman

2023/5/9
logo of podcast Me, Myself, and AI

Me, Myself, and AI

AI Deep Dive AI Chapters Transcript
People
S
Sam Ransbotham
S
Stephanie Moyerman
Topics
Stephanie Moyerman: 本人担任Instagram用户福祉数据科学总监,致力于利用人工智能和数据提升平台的信任度、安全性和完整性。数据显示,尽管社交媒体存在负面问题,但青少年在过去几十年里的整体安全和福祉有所提高。通过大规模个性化模型,Instagram可以促进健康社会规范,鼓励积极互动,并提高对积极内容的认识。大规模人工智能模型帮助Instagram检测和调节有害内容,保护用户免受不良信息的影响。检测欺诈和滥用行为是一个对抗性博弈,需要不断改进技术和策略才能跟上不断变化的挑战。尽管存在恶意行为者,但大多数人本质上是善良的,理解行为背后的动机对于构建更安全的平台至关重要。为了有效评估和改进人工智能模型,需要一个封闭的反馈循环,以便根据现实世界的反馈不断迭代。缺乏封闭的反馈循环会导致人工智能模型仅从自身学习,最终可能出现问题。用户反馈对于改进人工智能算法至关重要,平台需要方便用户提供反馈并支持其操作。她最担心的是数据科学领域缺乏经验丰富的从业者。她希望人工智能能够应用于解决全球性问题,例如粮食短缺和疾病。 Sam Ransbotham: 讨论了人工智能在检测不当行为和内容方面的作用,以及在算法决策中平衡自由表达和安全性的挑战。强调了在人工智能算法中建立公平性和伦理考量的必要性,以及对具有哲学素养的专业人员的需求。 Shervin Khodabandeh: 与Stephanie Moyerman一起探讨了人工智能在检测欺诈和滥用行为中的作用,以及如何利用数据来改善社交媒体平台的用户体验。关注了人工智能算法的公平性和伦理问题,以及在快速发展的数字领域中保持安全和公平的管理挑战。

Deep Dive

Chapters
Stephanie Moyerman discusses how AI and data science are used to improve trust, safety, and integrity on platforms like Instagram, highlighting the role of AI in detecting harmful content and fostering positive social norms.

Shownotes Transcript

今天,我们播放的是由我们的朋友 Modern CTO Podcast 制作的一期节目,他们最近很友好地邀请我作为嘉宾参加。我们讨论了生成式 AI 的兴起,在技术方面取得成功的意义,以及领导者在指导技术实施工作时需要考虑的一些因素。您可以在 Apple Podcast、Spotify 或您收听播客的任何地方找到 Modern CTO Podcast。

数据科学这一新兴领域正在迅速发展,导致了许多管理方面的挑战。技术领导者如何确保像社交媒体这样快速发展的数字空间保持安全和公平?在今天的节目中找出答案。我是 Instagram 的 Stephanie Moyerman,您正在收听《我和 AI》。欢迎收听《我和 AI》,这是一档关于人工智能和商业的播客。在每一期节目中,我们都会向您介绍一位在人工智能领域进行创新的个人。

我是 Sam Ransbotham,波士顿学院分析学教授。我还是麻省理工学院斯隆管理评论的 AI 和商业战略客座编辑。

我是 Shervin Kaurubande,BCG 的高级合伙人,也是我们 AI 业务的领导者之一。麻省理工学院 SMR 和 BCG 自 2017 年以来一直在研究和发表关于 AI 的文章,采访了数百名从业者,并对数千家公司进行了调查,了解构建、部署和扩展 AI 能力以及真正改变组织运营方式需要什么。Stephanie,感谢您加入我们。请您简单介绍一下您的工作。您现在做什么?

我是数据科学总监,负责支持 Instagram 的福祉。Instagram 的福祉确保 Instagram 平台的信任、安全和完整性。我想我们已经听了很多关于社交媒体各种阴暗面的说法。似乎几乎每天都会有关于出现问题的报道。我认为我们忽略了所有做得对的事情。人工智能和数据在帮助社交媒体重拾光明方面起着什么作用?

大量数据实际上表明,在整个行业,而不仅仅是社交媒体,在整个青少年行业中,过去 100 年的安全状况和过去 50 年的福祉实际上都在提高。如果您查看从您认为最严重的问题(例如警方报告)到获取信息以自学的能力,以及像识字率这样简单的事情,都会随着时间的推移而不断提高。真正能让我们看到这一点的是数据。因此,能够分析 Instagram 或任何这些广泛的社交媒体平台上的数据,在这些平台上您可以访问数千万青少年,

并说:“嘿,这就是我们如何讲述一个故事,让这个平台更安全、更好,并使世界变得稍微好一点的地方”,这是在过去 20 年之前我们根本无法做到的事情。是的,这是一个很好的观点。我的意思是,我们根本就没有这些数据。根本没有任何收集。请您简单介绍一下您了解到的情况进展如何。您提到了识字率。其他方面呢?

在我们自己的生态系统中,我们看到进展的地方在于帮助建立健康的社会规范。这就是我们思考问题的方式,不仅针对青少年,也针对整个平台。我们如何鼓励和促进人们之间的关系以及有助于建立规范化行为的对话?

这增加了对正在发生的好事的认识,并为社区对话定下了基调。所有这一切都由大规模个性化模型驱动,这些模型试图预测在特定情况下会引发适当反应的是什么。另一方面,整个行业实际上都跨越了

电子商务跨社交媒体拥有大规模的 AI 模型,使我们能够了解对话的情绪、对话的安全性和图像中的内容,从而保护人们免于看到那些原本不受监管的东西。如果您考虑一下小报出版物或任何人都可以在以前向您家门口扔的东西,这些东西在很大程度上不受监管,

现在我们不仅有能力做到这一点,而且还有能够大规模做到这一点的全面 AI 工具。这很棒,因为您指出了在此之前发生了很多这样的事情。现在我们认识到,其中一些只是测量和观察问题。

没错。在我看来,还有两个因素在起作用,也许这里存在一场竞争,因为一方面,越来越多的人可以访问,这是自由繁荣社会的标志,人们应该有自由发布他们想要的东西或分享他们想要的东西。另一方面,

不良或有害内容的几率增加了,因为参与者更多了。所以这是一个因素。另一方面,我认为这是您提出的一个观点,Stephanie,就像,好吧,现在我们有了数据,现在我们有了 AI,现在我们有了 ML,所以我们可以抓住它。但感觉上这有点像一场竞赛。就像在医疗保健领域一样,我们的预期寿命正在增加,对吧?

因为由于医学的介入,我们活得更长了。但你也会听到关于我们正在发明各种新型污染物的说法,因为我们正在进化,我们正在发明这些东西。但因为我们现在也在进化,

随着医学的发展,我们正在努力诊断和发现这一点。这有道理吗?在我看来,有两个不同的因素,这里存在一场竞争,或者这场竞争会在某个时候结束,人工智能和技术会控制住不良因素吗?你知道,我认为这是一个有趣的问题,因为

我们经常谈论的一件大事是,所有这些领域,空间、完整性、医学,你试图对抗这种不可预见的负面影响,那就是它们是对抗性游戏,对吧?它们是猫捉老鼠的游戏。因此,您转移得越多,您在与之对抗的人的生态系统中创造的差异就越有创意。但是为了跟上这一点,实际上,在双方,技术都必须变得更复杂,您必须能够更快地扩展,并且您必须处理比我们 5、10、15 年前甚至还要多的一系列问题。所以这有点像技术上的军备竞赛。不过,我想说的是,在大规模、大规模的情况下,有能力进行监管,这对于设定普遍标准至关重要。也就是说,我实际上喜欢这种观点,即这种观点赋予了表达自由和代理权。我认为

在这个领域工作了很长时间后,首先,对抗性是让我继续从事这项工作的原因之一。总有新的问题需要解决。总有新的事情需要处理。但其次,即使在过去 10 年从事欺诈、滥用和信任工作,我也确实相信人们从根本上来说是善良的。我们经常这么说,坏行为者并不意味着你是一个坏人。有人可能会做出不好的行为,而没有意识到这一点,没有你认为与之相关的意图。

因此,我认为围绕了解对话基调、了解这些努力背后动机的这些大规模努力,以及将 AI 与社会心理学、政府监管相结合,以让人们自由表达他们选择的经验代理……

但要确保我们有适当的保障措施和规模,以防止任何大规模的事情在相反的方向上发生错误。是的。正如您所说,我们现在拥有惊人的训练数据集,因此您可以做到这一点。不过,我一直想知道,关于欺诈……

支付公司最终发现,他们可以理解很多数据来了解欺诈行为。他们训练了数据。如果模型错了,他们会学习,因为有一个真相来源。所以这是欺诈行为。这是一个事实。对于您正在谈论的事情,我们对真相来源有多确定?我的意思是,训练这些算法的数据有多明确?

你知道,这是一个很好的问题。我认为事实是,我们用训练数据教导的模型只能像任何人类一样好地辨别。该领域有一位专家,对吧?因此,模型可以查看更多、更多、更多的示例,比人类一生中所能看到的数百万个示例还要多。但是人类已经建立了

对构成欺诈行为、构成优秀艺术作品的敏锐认识,我们已经将其输入。模型正在从这些决策中学习。所以这里有两件非常重要的事情。第一,我记得曾经参与过一个项目,有人说,我想通过戴着这些眼镜看你来预测情绪。团队中的一位男士说,如果你能做到这一点,你能把它们给我吗?因为我仍然无法知道我妻子在想什么。所以……

我们做到这一点的能力受到基础人类知识的限制。我认为很多都是文化方面的。如果您考虑一下构成产品或构成某人可能认为有伤风化的图像的内容,这在全球范围内会有很大的差异。因此,您必须将所有这些模型放在一起进行上下文处理。

但最重要的一点是您前面提到的那一点,那就是需要一个封闭的反馈循环。这就是欺诈的真正运作方式,以及为什么它如此有效的原因,因为有一个代理在检查线路另一端是否有钱,以确保这实际上是欺诈行为。与拥有原始信用卡的人(在本例中,在本例中被盗)进行核实,对吧?所以……

您拥有所有参与者的这个封闭反馈循环。这也不是 100% 有保证的。我的意思是,如果你搞砸了,那就是保险欺诈。但是这些封闭循环会说,嘿,我们的算法搞错了。我们需要修复它。

因此,对于所有问题,如果您想在上下文中评估它们,您需要能够拥有一个不断迭代的现实世界反馈循环和基本事实,并且拥有报告的代理和声音。因此,如果您将其移除,那么算法现在只能从自身学习,这将是一个问题。

这也很有趣,因为我认为您和 Shervin 都提到了适当的行为或不良行为。这些都是非常主观的标签,差异很大。我认为有趣的是,我们思考数据科学领域是如何发展的。几年前有一句名言,21 世纪最性感的工作将是数据科学家。

好吧,你们谈论的事情都说明了下一个最性感的工作将是哲学家。这将是能够推断出这些算法应该或不应该做什么的人。那是……

在我看来,现在这非常稀缺。数据科学……柏拉图 2500 年前不是这样说的吗?回到开头。但这似乎是一种比数据科学更稀缺的技能,正如您刚才所说,确定某事是否合适,这些规范应该是什么。这让我觉得很难。这是一个非常有趣的……

因为 20 年前数据科学实际上并不存在,对吧?因此,能够在高级别实践数据科学的人数非常少,因为您必须在一个可以学习它的世界中长大,并且您的简历上写着 10 年的实际工作经验。我们需要一个至少有 10 年数据科学管理经验的人。祝你好运,那里只有大约七个人,对吧?这些人是谁?因此,当您考虑这一点时,这些算法已经变得如此复杂,以至于我们需要一个公平的视角,

了解意图,而不仅仅是行为检测,解释 AI 可以驱动的适当行为是什么,而不仅仅是它可以做出的判断、判断。这真的很新。这就像过去五年的事情。现在我们有非常成熟的用户体验研究人员,他们可以理解这些产品的理念,从而帮助推动事情向前发展。

我认为我们需要,正如您所说,鼓励人们不仅要关注数据科学或技术的方面,还要进入学习在人工智能驱动的世界中意味着什么的领域。我认为这最重要的是我目前最有经验的地方实际上是公平性。因此,在说,AI 算法公平吗?我们如何跨学科划分这些算法的输出?

不同的群体。人口统计可以是您想要划分它的任何方式,就像 Shervin 之前谈到的那样,例如文化方面,以确保我们为所有各方提供平等的结果,或者我们调整算法以便我们自动进行。并且存在一套出色的软件可以做到这一点,即使是在这个新兴领域的开始阶段。因此,我们需要专家来使用这套算法来帮助公司

弄清楚如何处理这些极其敏感且非常非常重要的话题。正如您所说,公平性可能是我们比其他方面发展得更好的一个方面。但这具有挑战性,因为现在人们正在 Instagram 和其他地方发布照片。您没有五年或十年来积累这种经验。我们如何在马匹逃出马厩的同时实时做到这一点?

我认为对于所有这些主要平台来说,当您看到这种规模时,对吧,您会说这既令人兴奋又有点令人恐惧。我理解消费者的这一方面,但是如果我们没有所有这些算法来审核他们销售的所有东西,确保他们符合规定,审核每一次购买以确保没有人盗取您的信用卡,审核每一件事以确保平台保持安全和健康,那么我们永远不可能达到亚马逊能够在一天内向您交付包裹的规模。

但对我来说,真正的问题是,正如我们前面谈到的那样,您必须关闭某些方面以确保平台的安全和保护。您必须开发这些大规模算法,并且您必须拥有一套某种人类判断标签来告诉您什么是合适的,什么是不合适的。

然后,您必须设计您的系统,以便您的消费者可以非常轻松地为您提供持续的反馈,再次,代理权。我们必须让我们的客户、用户和每个人都能发声,并告诉我们,这是一个正确的决定还是错误的决定?并通过我们方面的运营来支持这一点,即我们拥有最清晰的决策,这些决策反映了社区的基调,即根据我们的标准,这是可以接受的,或者这是不可接受的。

实际上,我喜欢您与支付欺诈所做的类比,因为我不想暗示这个问题已经解决。但是,同样,当我们在这方面做得非常好时,很容易将其扩展到规模。您可以让这种最先进的检测真正快速地在整个组织中扩展。您指出的是,当我们对平台的其他决策和其他方面这样做时,

好消息是,我们也可以大规模地推出所有这些。因此,当我们取得进步时,这种进步会很快出现在各处。这很重要。我认为还有一点是,人们对这些大型平台和 AI 有一种巨大的恐惧,这种恐惧在流传。我理解为什么规模几乎难以理解,对吧?但我认为,如果社区理解

通常对他们的行为如何影响我们对这些算法运行方式的思考方式有更好的理解,这会有所帮助。很久以前,我和某人聊天,他们和我争论。他们说,你知道,就像,我不相信 AI 的决定。就像,我不相信这些机器学习的决定。我宁愿让一个人参与其中。

我说,我实际上比相信人类的决定更相信 AI 的决定。他们说,那是因为你了解 AI 的工作原理。我说,这就是原因。我作为一个书呆子会争辩说,我可能比了解大多数人的大脑如何工作更了解算法的工作原理。所以……

我认为如果其他人更倾向于了解他们在所有这些平台上的行为,点击,我想举报一些事情。

点击,这是一个错误的决定,我想提出上诉,这在多大程度上影响了他们提供准确、充分数据的能力,实际上他们可以在这个大规模世界中更积极主动地做出我们的决定。我认为人们,这就像投票一样,对吧?人们会说,一票是什么?为什么重要?但是当每个人走到一起时,您实际上确实可以在塑造这些重大决定的结果方面发挥作用。

我喜欢投票的类比,我们走到一起,投票,让改变发生。所以我们通常匿名投票,我们从根本上信任这个系统。否则我们不会投票。但感觉上你需要一种外力。我不知道这是否引起共鸣。我完全同意这一点。我认为,说实话……

如果您看看 Apple 在最近的更新中所做的工作,他们会问您,您是否要跟踪?他们对此非常坦率。我认为这是一个步骤…… 45 从短期来看,通常会降低数据的可用性,但从长期来看,实际上会提高数据的质量。因为志愿数据通常是您知道的好数据,您不希望人们不得不推断。所以它给你一些东西。让激励与拥有最佳算法相一致是有帮助的。这与投票类比的方式相同。如果您觉得您实际上有动力使用您的声音并在投票中投出您的选票,那么

但您通常会采取更大的措施来确保您了解您正在投票的内容。让我们回到您对算法的理解。

您是如何进入这个角色的?实际上,我的岳父是核物理学家。所以我真的很希望你能说一些与物理学相关很酷的事情,这样他不会像他以前那样认为我是一个疯子。所以这可能是从问题中推断出来的。我的背景实际上是宇宙学和天体物理学。我有很多在同一领域的朋友都进入了数据科学和机器学习领域。

如果您使用物理学或工程学处理数据,传感器数据非常庞大。这是一个巨大的数据流。因此,从我们在智利建立的望远镜中,您每秒从这些传感器中提取 500 赫兹、1000 赫兹的样本。您有数千个传感器,并且它们全天候运行,并试图将其处理成一些连贯的东西。

如果您考虑一下社交媒体或电子商务的工作方式,它也是一样的。它只是来自各处不断流入的信号。您试图将其处理成一系列连贯的决策。然而,最重要的事情之一是,几乎任何现在大规模的科学努力,核物理学肯定是一个,粒子物理学,都是关于在噪声中寻找信号。你得到这么多的噪音。我研究生院学习的宇宙微波背景是

我们正在寻找的信号是噪声中十亿分之一。如果您考虑一下诸如

检测欺诈、检测图像。您说的不是 99% 的这些是您想要提取的。恰恰相反。因此,您的良好信号几乎就像检测这些异常值的噪声一样。这与关于物理学的数据科学有很多关系。您建立这些大规模系统来寻找这些非常非常微小的信号,这些信号表明宇宙的起源或粒子性质的形成方式。

这非常诗意。我认为这会让你的岳父很高兴,Sam。说得很好。直接告诉他那一部分。说得非常好。终于,终于。以后再抱孙子。这可能是压垮骆驼的最后一根稻草。

但我确实喜欢这种思维方式,您可能会解释为什么我们看到来自这些学科的人,例如习惯于处理这些大型数据流并从中挑选出微小信号的物理学家,在现代商业中成为一项宝贵的技能。回顾我自己的沉思,我实际上开始并对查看安全日志感兴趣,其中有数十亿条记录,只有少数是错误的,但是

弄清楚哪些是错误的,这就是我实际上开始学习其中一些技能和一些工具的方式。我认为这是一个非常引人入胜的类比。Shervin 和我都是改革后的工程师,所以这吸引了我们。关于这一点的一个轶事。我们之前谈到了这个领域的最新情况,对吧?以及很久以前它根本不可用。当我们在研究生院建造望远镜时,我们有一个互联网连接,从智利阿塔卡马沙漠中心的望远镜站点到一个非常快速的互联网连接,但它不够快,无法

实际上将所有数据传输到劳伦斯伯克利超级计算机进行处理,除非将其大幅度降采样。因此,我们疯狂地进行了降采样,以确保一切顺利,产生了这些中间体。我们不得不发明一种新的文件传输协议,我们称之为 HDOA,它代表飞机上的硬盘驱动器。我们将带着装满硬盘的行李箱从沙漠飞回来,上传这些数据,以便每个人都可以使用它。如果您考虑一下我们走了多远

仅仅,你知道,20 年后,您可以看到为什么来自这些领域的人们正在进行飞机硬盘驱动器传输,现在是那些从事大量数据科学领域的人。好吧,Stephanie,现在是我们提出一些快速问答问题的时候了。所以只需回答你脑海中浮现的第一件事。哦,上帝。您最引以为豪的用人工智能取得的成就是什么?

我们实际上进行了一次直播。这与欺诈滥用信任完全无关。几年前,我们与 X Games 进行了直播集成。我们实际上在板上安装了微型传感器,并实时对冬季 X Games 中运动员的技巧和滞空时间进行了分类。那是我见过的最酷的事情,它同时出现在我面前的屏幕上和现实生活中,我无法表达我在那一刻的敬畏之情。

这很酷,因为每当我看到那些评论员时,他们都会说类似的话,哦,是的,这是一个四倍的什么。对我来说,这只是一团巨大的模糊。我们实际上不得不改变,以确保我们不是试图猜测旋转和翻转,而是围绕这个轴的旋转和围绕这个轴的旋转。好吧。因此,我们提到了偏差和伦理问题,但是您对人工智能有什么担忧?我认为缺乏非常……

经验丰富的从业者实际上是我现在在这个领域中最大的担忧。因此,如果您正在考虑这个问题,如果您的孩子正在考虑这个问题,请进一步推动他们进入这个领域。好。好吧。那么您最喜欢的与技术无关的活动是什么?不是 AI。我是一个……

经验丰富的柔道和柔术运动员。从四岁起我就一直在练习柔道。我爸爸管理过两支柔道奥运代表队。因此,它占据了我很多时间,而不是动手操作键盘的时间。太疯狂了。好吧。那么您小时候想从事的第一个职业是什么?柔道大师?是的。

当我五岁的时候,我想成为总统。我很高兴这个愿望没有实现。那是一份艰难的工作。您对未来人工智能的最大愿望是什么?您希望我们从中获得什么?我真的很想看到人工智能应用于一些世界范围内最系统性的问题,这些问题存在于一些发展较慢且较新的领域。因此,我认为比尔及梅琳达·盖茨基金会在努力创造全球公平以及解决粮食短缺问题或疾病问题方面所做的工作。

我希望看到更多的人工智能关注这些领域,尤其是在硬件分销渠道方面,这样我们才能真正影响那些历史上我们无法扩展的领域的全球变革。实际上,这与您关于扩展的总体主题产生了共鸣。Stephanie,我认为您提到的关于如何

我们大规模学习的想法,既从整个组织的人工智能中汲取教训,也学习算法告诉我们如何改进。我认为这些是一些引人入胜的事情。我们感谢您今天抽出时间加入我们。谢谢。非常感谢您邀请我。感谢您今天的收听。下次,Sherva 和我将与 Aflac 的首席信息官 Sheila Anderson 谈谈。请加入我们。

感谢收听《我和 AI》。我们相信,与您一样,关于 AI 实施的对话不会仅限于此播客。这就是为什么我们在 LinkedIn 上专门为像您这样的听众创建了一个小组。它被称为 AI for Leaders。如果您加入我们,您可以与节目创建者和主持人聊天,提出您自己的问题,分享您的见解,

并获得来自麻省理工学院 SMR 和 BCG 关于 AI 实施的宝贵资源,您可以通过访问 mitsmr.com/AIforLeaders 来访问它。我们将把该链接放在节目说明中,我们希望在那里见到您。