We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode #105 AI UX is Broken – How Do We Measure a “Good” AI Experience?

#105 AI UX is Broken – How Do We Measure a “Good” AI Experience?

2025/3/20
logo of podcast Future of UX | Your Design, Tech and User Experience Podcast | AI Design

Future of UX | Your Design, Tech and User Experience Podcast | AI Design

AI Deep Dive AI Chapters Transcript
People
P
Patrice Reinhers
Topics
Patrice Reinhers: 我认为目前AI产品最大的挑战之一是如何衡量其用户体验。传统的UX指标,例如可用性、参与度和任务完成率,在AI产品中并不适用,因为AI系统具有适应性和动态性。 AI产品的用户体验不仅要考虑其功能性,更重要的是要关注其公平性、透明度和可解释性。亚马逊的AI招聘案例就是一个很好的例子,它说明了如果AI系统缺乏公平性和透明度,即使技术上准确,也会导致糟糕的用户体验,甚至造成伦理问题。 为了解决这些问题,我们需要重新定义AI的用户体验,并开发新的衡量指标。这包括评估AI系统的公平性、透明度、可解释性以及用户对AI系统的信任程度。 此外,我们还需要考虑是否需要为AI产品制定一个通用的UX认证标准,就像无障碍性或安全合规性一样。这将有助于确保AI产品在发布前满足一定的质量和伦理标准,从而提高用户对AI系统的信任度。 欧盟AI法案虽然不是直接针对用户体验,但它为AI产品的安全性和伦理规范设定了标准,这在一定程度上也影响了AI的用户体验。然而,该法案也存在一些争议,例如限制过多可能导致创新速度放缓,以及对小型AI公司的不利影响。 总而言之,衡量AI用户体验是一个复杂的问题,需要我们从技术、伦理和用户体验等多个角度进行综合考虑。未来,我们需要开发新的评估方法和标准,以确保AI产品能够提供安全、公平、透明和令人信赖的用户体验。

Deep Dive

Chapters
This chapter explores the challenges of measuring AI experiences using traditional UX metrics. It highlights the Amazon hiring AI scandal as a prime example of how biased algorithms can lead to poor UX and the need for a more comprehensive evaluation method beyond technical aspects like accuracy and efficiency.
  • Traditional UX metrics fail in AI-driven products.
  • Amazon's biased hiring AI amplified gender bias.
  • AI needs to be fair, transparent, and user-centered.
  • Current AI benchmarks focus on technical aspects, neglecting user experience.

Shownotes Transcript

欢迎来到UX的未来,在这个播客中,我们将深入探讨塑造设计和技术未来趋势、挑战和创新。我是帕特里斯·雷纳斯,在每一集中,我们都会探索UX领域的未来发展,以便您能够走在时代前沿。今天,我们将探讨一个巨大的问题:我们如何衡量良好的AI体验?

AI正在改变一切。从招聘决策到医疗诊断,从内容推荐到自动驾驶汽车。但事实是:我们甚至还没有为UI制定明确的UX标准。

如果我们没有正确衡量AI产品中的UX,我们就有可能构建出功能齐全但可能不可靠、准确但缺乏伦理的产品,

功能强大,但可能令人沮丧的产品。在本集中,我们将探讨传统的UX指标如何在AI驱动型产品中失效。我们还将讨论亚马逊AI招聘丑闻,以及有偏差的算法如何造成糟糕的UX。我们将讨论可解释性问题,即为什么我们常常无法理解AI的决策。

我们将讨论是否需要一个通用的AI UX认证,例如辅助功能或性能评级。我想说,让我们直接深入探讨。几年前,亚马逊试图使用AI来自动化招聘决策,这听起来是个好主意,对吧?目标是找到最佳求职者,而无需人为偏见。但事情是这样的。

AI是根据历史招聘数据进行训练的。你猜怎么着?从历史上看,亚马逊聘用的男性技术人员多于女性。因此,AI了解到男性是更好的候选人,并自动降低了包含“女子象棋俱乐部”或“女性领导团队”等词语的简历的等级。结果是,AI非但没有消除偏见,反而放大了偏见。

是的,亚马逊取消了该项目。但这里的UX教训是什么?AI产品不仅需要技术上准确,还需要公平、透明和以用户为中心。我们需要在AI产品上线之前找到更好的方法来评估AI体验。

现在最大的问题是,我们如何定义、如何衡量UX体验?是的,UX不仅要功能齐全,还要符合伦理和公平。为了应对这些挑战,各组织已开始开发AI性能基准。

我将简要介绍一个例子,即斯坦福CRFM透明度指数。它衡量AI模型解释其决策的程度。

因为AI的一个大问题是,当AI向你推荐某些内容或呈现结果时,很难甚至几乎不可能理解AI是如何得出这个结论的。即使AI能够透明地解释它是如何得出结论的,你看到的也基本上是计算结果。非常复杂,非常难以理解。

因此,今天的AI基准测试包括AI公平性和偏差。AI是否公平地对待所有用户?当然,性能是指AI是否快速高效,以及可解释性,即用户是否理解AI做出决策的原因。这非常重要。这些基准测试主要关注技术方面。

但不太关注用户体验。当我们考虑偏差、公平性、性能和可解释性时。AI可能很准确,但对用户来说仍然感觉不可靠或无用。这有点像只根据食物的卡路里来评价一家餐厅,而忽略了味道、服务和氛围。

那么,我们需要一个AI UX评分吗?让我们来谈谈为什么传统的UX指标在AI产品中会失效。首先是可用性。AI会适应和变化,这使得可预测性成为一个挑战。还有参与度。AI驱动的平台会优化用户花费的时间。

但是,花费更多的时间是否总是更好的UX?当我们想到社交媒体或TikTok的成瘾性算法时,让用户尽可能长时间地停留在平台上可能对业务有利。但这真的是良好的用户体验吗?还有任务完成情况。AI可能会以有时意想不到的方式完成任务。

但这是否意味着UX很好?想象一下,一个AI能够完美地识别最合格的求职者。但如果它更喜欢有第三个名字或特定背景的候选人呢?或者如果它排除了非传统的职业道路呢?UX不仅仅是效率,还关乎信任、公平性和透明度。那么我们如何建立对AI的信任呢?

假设您正在使用AI驱动的医疗诊断工具。您输入您的症状,它说,是的,您有65%的几率患有癌症或其他严重疾病。但它没有告诉你为什么。没有解释,没有理由。你会相信它吗?可能不会。你可能会有点担心,但你可能不会相信它,对吧?

在这里,可解释性的重要性就非常明显了。如果用户不理解AI的决策,那么这些决策有时会显得随意。如果您正在设计AI产品,这里有一个非常好的经验教训。帮助用户理解为什么做出了某个决定。因为缺乏透明度会导致不信任,即使AI是正确的。

有些AI模型非常复杂,甚至连它们的创造者也不完全理解它们,这可能会发生,因为AI不是,你知道的,从A到B,但有时你会从A到D,而你不知道这是如何发生的。因此,解决这个问题的一个重要方法是用户控制。让用户调整偏好。让用户参与其中。

还有透明度,我们已经讨论过了,展示AI做出某个决定的原因,以及反馈循环。始终征求反馈。我们从传统的数字产品中了解这一点,但对于AI来说,这一点更为重要,因为用户纠正AI错误可以帮助系统学习和改进。这里一个很好的例子是谷歌的搜索算法。它在不断变化。

但用户无法控制它。那么,如果谷歌让用户了解为什么排名靠前的结果排名更高,那岂不是会提高信任度吗?我肯定会这么认为。尽管从商业角度来看,这可能有点棘手,因为谷歌也通过位于顶部的赞助广告赚钱。

当然,解释为什么向用户展示这一点会有点困难,因为这是一个广告,所以公司为此付费。所以现在最大的问题是,AI产品是否应该获得UX认证?我在想,如果AI产品在发布之前必须通过UX认证,就像辅助功能或任何安全合规性一样,会怎么样?潜在的好处可能是

该产品是公平的、透明的和用户友好的。它有望在用户和AI驱动系统之间建立信任。这将迫使公司从一开始就考虑AI UX,并将UX设计师纳入整个流程。但让我们也考虑一下另一面,即一些挑战。

这是一个很大的问题。谁来制定AI UX评分的标准?有人需要提出标准和规则。我们现在还没有,但这可能会有所帮助。此外,我们如何衡量伦理和透明度?这仍然是一个挑战,但我认为可能有几种解决方案。这会减缓创新吗?嗯。

例如,想想食品安全法规。我们不会允许任何食物上市,但食物需要遵守某些规定,尤其是在欧洲或德国、瑞士(我的所在地),食物需要遵守某些规定。这涉及到生产中使用的某些东西,抗生素,所有这些东西。

那么,为什么AI、为什么数字产品应该有所不同呢?我们也有这些安全法规。如果你有UX认证,你会更信任AI吗?在欧洲,我们确实有一些非常严格的AI相关规则。因此,对于那些居住在这里的人来说,你可能听说过。我们有欧盟AI法案。

我认为,这实际上在去年8月成为法律。它基本上是世界上第一套关于人工智能的大型规则。仅限于欧盟。其目标是确保AI安全、合乎伦理并尊重人们的权利。这与用户体验关系不大,但它在某种程度上与之相关。就像……

有了这个,或者我想说的是,围绕这项法规存在相当大的争议,因为一方面,

它保护了人们的权利。它防止AI被用于不公平或有害的方式。它也建立了对AI的信任。因此,您有明确的规则来帮助人们在使用AI产品时感到更安全一些。它树立了一个全球性的榜样,有点像GDPR隐私法。这些AI规则可能会影响其他国家的法律。

它的工作原理是这样的,它将AI产品分为三类,并分为不同的风险等级。第一类是被禁止的AI,即不可接受的风险。例如,对人们的权利构成危险的AI系统,例如类似于中国系统的社会评分系统。它们在欧盟是被完全禁止的。然后是高风险AI。

用于招聘、医疗保健、金融或执法的AI。它们必须遵循非常严格的规则,以确保其安全和公平。然后是有限风险AI。这些是聊天机器人和生成式AI,例如ChatGPT或Midjourney。它们必须透明,人们需要知道他们正在与AI互动。

那么谁必须遵守这些规则呢?该法律适用于欧盟境内的AI开发者、企业和用户。即使是欧盟境外的公司,如果他们在欧洲销售AI产品,也必须遵守这些规则。我还提到过,这存在相当大的争议,因为它也带来了一些问题和担忧。正如您所看到的,有很多限制。因此,一些科技领导者担心,这些规则可能过于严格,会减缓欧洲的AI创新速度。

它们也不太清晰。AI的广泛定义使得公司很难知道哪些工具受到影响,这可能会尤其损害初创企业。较小的AI公司可能会难以应对高昂的合规成本,从而使其更难以竞争。

我认为,从我的角度来看,AI法案是朝着使AI公平负责迈出的重要一步,但它也可能使公司在欧洲开发和使用AI变得更加困难。是的,我不确定我们是否能够真正弥合与美国和中国的差距,并将欧洲定位为AI创新的领导者。

尽管我认为这绝对是朝着正确方向迈出的一步。当涉及到,我的意思是,这项法律不是关于UX的,它只是关于AI法规的。但是,你知道的,UX将是下一步。但我考虑的是全球范围,而不仅仅是欧盟。因此,总结一下。衡量AI UX是当今设计中最大的挑战之一。传统的UX指标绝对不够。

AI需要将透明度、信任和公平性融入其设计中。未来可能包括一个通用的AI UX标准。但是,是的,我们还没有达到那个阶段。我很想知道您的想法。您怎么看?AI产品在发布之前是否应该满足UX标准?让我们讨论一下。请随时在节目说明中分享您的想法。

如果您喜欢这一集,请随时对其进行评分。给我一个五星评价。这有助于我为播客找到我可以采访的优秀人士。这也有助于我制作节目。是的,如果您正在收听节目,如果您喜欢它,这只是很好的支持。非常感谢您的收听。我想说,我们下一集再见。