大家好,欢迎收听 NVIDIA AI 播客。我是你们的节目主持人。Zoom 在 2020 年成为了家喻户晓的名字,在新冠疫情期间迅速崛起,成为首选的视频会议平台。
从那时起,该公司不仅一直在改进视频技术,还在帮助我们所有人重新思考在数字通信和人工智能时代的工作方式。在 Zoomtopia 大会上,Zoom 在今年十月发布了一系列新的以人工智能为首的产品和举措,所有这些都是为了实现该公司将人工智能融入工作平台,同时保持人际联系的使命。今天与我们讨论 Zoom 的联邦人工智能和人工智能代理方法,以及未来我们如何与技术一起生活和工作,的是 Xuedong “XD” 黄博士。
Xuedong “XD” 黄博士是 Zoom 的首席技术官,拥有丰富的 AI 背景。他曾创立过语音技术团队,最近还在作为 AI 首席技术官和技术专家。XD 是一位人工智能和 ACM 领域的专家,也是美国国家工程院和美国艺术与科学院的当选成员。
最重要的是,他此刻就与我们在一起。让我们开始与 XD 的对话。欢迎来到 NVIDIA AI 播客。非常感谢您能加入我们。
谢谢。很高兴能在这里。
我们是在 Zoomtopia 大会后立即进行的录制。Zoom 基本向全世界宣布,他们将全力投入人工智能。当然,我们想听听关于新步骤的更多信息,但首先,也许我们可以为听众设置一下背景。您能大致介绍一下 Zoom 在工作场所中对人工智能的应用吗?
我认为这是个美妙的时刻。自从我研究生时代开始从事人工智能工作以来,这是最令人兴奋的时刻。这已经持续了 40 年了。人工智能真的彻底改变了我们的工作方式。Zoom 已经成为一个家喻户晓的名字,每个人都知道 Zoom 的作用,对吧?
这非常...
不同。所以,现在我们面临着比以往任何时候都更令人兴奋的机会,如果不是我们的话。会议是重要的商业功能之一,但我们希望扩展人们工作的功能。
很高兴我们拥有这样的平台,对吧?所以,工作场所将利用人工智能的结合来获得优势。我们相信人工智能将提供令人兴奋的机会,反映我自己的职业生涯。
我们停止了划分。我第一次在北京面对大众是在清华大学,我第一篇论文是用打字机写的。我喜欢中国昂贵的液体墨水笔。
在北京,1982 年到 1983 年。我记得当时出租车是奢侈品,对吧?啊,这种打字机。
任何需要我真正使用的信件,我都会使用它。我会纠正这一点。当我掉下我的书时,烟雾和处理,这是我在微软的同事。
我很幸运,我们有微软 Word,但即使在那个时候,什么能容纳一百页的文档?太大了,太大了。所以我们必须,因为它们是独立的章节,但想象一下,如果麦克风在章节之间中断,那会很难。
没有微软 Word,我们必须逐页使用打字机,这将因为我们有很多草稿和参考文献而花费很长时间。我在微软的同事之一正在用 GPT-4 阅读一本书。这太神奇了,它真的将一切提升到了一个新的水平。所以,你可以看到这种反思的旅程。
请允许我稍微停顿一下。如果您能回想一下您在打字机上写作的时候,您能想象我们现在会在哪里吗?您在这个领域工作了很长时间,所以也许您能。但我很好奇,你知道,如果 30 年前,我们今天所处的境地,你的同事使用 GPT-4 来帮助阅读一本书,这是你...
在当时想过的事情吗?没有。是的。是的,我从事语音识别工作。
我的意思是,在那个时候的北京,我只有 IBM PCX。我不知道这意味着什么。我不知道...
我记得...
加上一些苹果 II 电脑。
啊,是的,在两年前...
是的,我们只有这些,对吧?你实际上告诉过自己,如果电脑能理解语言,40 年后会发生什么?当时我认为这不会是显而易见的特征。在微软,我们在 2016 年率先实现了人类水平的语音识别,在最困难的语音任务中。
大多数人都不相信我们能做到这一点。是的,我们做到了。现在,ChatGPT 真的将定义并开启想象力,然后...什么对吧?我认为开放,我确实只是为了精细化。
然后你发现这里,你有一个...对不起,为什么是...是的,你知道,抓住这个机会重新定义工作?是的,计算的每一个错误都创造了工作。微软的领导者彻底改变了计算领域。
问题是,生产力服务是顶级计算的原因,我与微软的同事分享了这一点,当我们讨论语音识别时。我们喜欢微软。当工作结合在一起时,谷歌利用了他们创造的工作来支持更多人可以在同一文档上工作,就像我们知道的那样,谷歌文档、幻灯片和表格。它们都真正支持跨团队协作。
对吧?协作。
这需要时间。有趣的是,我认为现在它是一个增量信息。我们都在同一起跑线上。
微软呢?谷歌当然,Zoom 在最关键的商业功能中拥有独特的优势,即让很多人聚集在一起开会。我们是领导者,但仅仅拥有会议功能是不够的。如果你考虑工作,我们可能有一些关键功能,对吧?获取信息的能力,这是人类价值观,为了满足我们自己的需求而阅读。
人工智能可以帮助你阅读 500 或 800 页的书,就像我的一个同事,他将 100 页的内容浓缩到一页中,对吧?所以,神奇的是,每天我都可以做到这一点,并为人们创造大量的学习机会。每个人都会获取信息,这是重要功能之一,它还会进行沟通和推理,让大家跟上进度。所以,人工智能可以帮助你撰写草稿,因为我们知道你需要的功能。所以,这两项最重要的基本能力是阅读、写作和与团队沟通,让大家在同一水平上进行沟通。
获取信息,进行沟通。
是的,它们将真正地、根本地帮助我们,我们可以利用这些能力。我们设计机会,而不仅仅是将这些能力添加到现有软件中。这是 Zoom 真正取得进步的机会,对吧?
我们解决生产力问题的途径以及我们解决人工智能问题的途径。有三个关键点值得强调。我在 Zoomtopia 大会上详细介绍了这一点。
是的,我想重点介绍的第一件事是,我们通常会问,所以我们整合了最好的 AI 公司和主题,包括 OpenAI、Meta 和 Anthropic 等,以及许多开源机会。我们与网络搜索领导者合作,使用新的或改进的模型。好的。
所以,我们不是将它们全部组合在一起。除了我们自己的关于如何训练小型语言模型的见解外,我们还在训练和开发已经达到惊人能力的模型。我们重视小型语言模型,因为它们可以处理长文本,需要与这些强大的大型模型协同工作。所以,我们有这种方法将它们结合在一起,以支持每个人的生产力。
小型语言模型在堆栈中扮演什么角色?它与大型语言模型有什么不同?
我们正在训练小型语言模型,就像其他人一样,训练小型语言模型只是额外的测试。除了这样做之外,我们还在整合每个人的独特联系,以便真正个性化体验。这很有效,对吧?总是。
所以,如果我使用 Zoom AI 助手,并授予权限,Zoom 基本上可以获取我所有的对话、会议、语音对话、文档和聊天记录,并将所有这些作为后续人工智能的上下文。
这是通过整合人工智能公司而形成的。好的,好的。该公司是水平的,通用的,而不是个性化的。
好的,这将是伴随我们将在明年推出的功能。好的,你实际上整合了让每个人都能自定义和个性化一些东西的能力,对吧?这实际上为小型语言模型在设备上运行提供了非常强大的机会。它已经能够推荐交互模型,因为你做的事情、你的个人生活、你的写作模式等等,这非常强大。所以,我想重点介绍一下,我们的联邦人工智能堆栈在行业中是独一无二的。与许多其他人工智能公司不同,他们只使用一个。
所以,对于不熟悉的听众来说,联邦人工智能堆栈,这基本上意味着系统可以根据情况选择要提示的 LLM 吗?联邦意味着什么?你在用什么?
有几种方法可以实现联邦,将大型语言模型和小语言模型联邦化的方法有很多。我们联邦化的方法与众不同,与联邦学习不同。好的,我们应该尝试将许多其他方法结合起来,形成一种强大的能力,可以保留上下文。
但是,我们看到的是,我们可以根据不同的工作负载选择不同的模型,因为它们是不同的公司,几乎就像一个超级代理。它试图理解不同模态、不同记忆,但花费一些时间,所以我们有团队。一个模型在不同时间最适合不同的任务。
我们还可以将不同的模型结合在一起。你可以看到,我们思考的方式,我们执行相同任务的方式,以及我们从中学到的东西,例如,如果一个小型语言模型可以很好地完成某些任务,那么它就足够了。所以,这是一种非常复杂的机制,它可以将多个模型结合在一起。
这是由 Zoom 的人工智能人才开发和推动的。所以,这是一种非常独特的方法,让我们与众不同。几乎任何...
在这里,你使用了“代理”这个词。随着我们对人工智能的讨论,世界各地的人们都在谈论人工智能代理的概念,这可能并不为人所知。但是,随着它最近的出现,你能谈谈它在 Zoom 中的含义吗?
是的,我想...
稍后再说。
稍后再说,好的。我们解决人工智能问题的方法与传统方法不同,对吧?所以,如果你考虑传统方法,大多数公司都在使用一个模型,无论是 OpenAI 还是其他大型语言模型,来增强他们所做的事情。
他们将能力附加到现有软件中,对吧?所以,在后台,他们大多数都在使用一个非常好的模型。
我不喜欢,所以过程不同。我们结合了 OpenAI、Anthropic、Google 和我们自己的小型模型,以提供匹配的性能。所以,这是第一点。
我想重点介绍的是,我们还整合了令人惊叹的网络问题或工作问题,以及未来的个人问题。我们将它们结合在一起。
这就是我们通过我们的方法来区分自己的方式。这是第一点。好的。
第二点是用户体验是人工智能优先的,这就是我所说的 AUI。通常情况下,我们优化用户界面,就像它们是独立的。
许多年前,是的,如果你回顾一下,从 Mac 到 Windows,再到谷歌文档和微软 Office,都是利用图形用户界面,以便我们理解。对话式用户界面和图形用户界面被重新定义。它们已经拥有数百万用户。
太棒了,很快。
比...更快。所以,Zoom 正在开发 AUI,它将对话式用户界面和图形用户界面结合在一起。在工作场所中,这意味着公司将允许持续的对话,对吧?好的,以及精美的图形用户界面,例如安排或与某人会面...
...在左侧?好的,信息在 AUI 中以类似的方式流动。
所以,我们试图利用对话式用户界面和屏幕优化用户界面。类似地,视觉体验也很好。技术会根据你的需求进行调整。这更个性化。这就是我们正在开发的客户人工智能助手。
好的。当你提到调整时,你的意思是用户界面会改变,还是你可以创建一个对话窗口,就像文本一样?或者人工智能可以根据你正在做的事情,在飞行中重新设计 UI,以适应你想要在视觉上看到的...
...人工智能可以提供的?视觉将成为重点。以及你想要获取的信息,以及你想要如何获取信息。这并不是 AUI 的全部。
不是改变界面,就像今天定义的图形用户界面一样,只是图形。新的界面,就像今天定义的会议一样。通过在模型环境中结合,我们学习了根据你的实际需求。
现在,我们发现将这两类结合在一起,传统方法是大多数服务和应用程序都优化了 ChatGPT 对话式用户界面。这是一种新的类别。我们只是想让它成为我们所拥有的唯一类别。信息在两类之间流动,类似地,我们试图理解用户需求并根据需要进行调整。
这就是 AUI 的含义。我们正在称之为 AUI。所以,这将带来...这将详细说明未来的用例。
我爱你。
是的。所以,这就是 Zoom 的基本方法。Zoom 本质上是在原生环境中拥抱人工智能。这就是...
人工智能对 Zoom 的贡献,你加入 Zoom 大概多久了?是的,当你加入时,你知道 Zoom 已经有了人工智能功能,例如人工智能助手版本 1,以及你可以使用第三方应用程序进行转录。这已经存在了一段时间,但是当你加入时,你是否认为应该从头开始构建一个以人工智能为中心的平台?你加入时,这种想法已经存在了吗?你加入这个角色时,你设想的是什么,以及你对这些事情的塑造程度如何?
所以,每个人都看不到你所看到的偏差。Zoom 之前已经投资于人工智能。是的,是的。自从我和 Eric 和 Jane 领导层一起工作以来,我们定义了人工智能的重点。好的,在加入之前,这只是在现有软件中添加人工智能,就像几乎所有公司一样,我们已经改变了共识,并推动人工智能在工作中发挥作用。
所以,人工智能优先意味着什么?所以,首先,这包括利用小型语言模型和大型人工智能公司的成果。但是,OpenAI、Anthropic 或其他来源的公司,例如微软,有很多,我们应该利用所有这些优势。所以,这就像一个改革者,致力于支持其他工作负载,而不是只使用一个模型来尝试执行相同的任务。
对吧?两个雨季比一个好。是的。
所以,你看,因为我们拥有这些模型,我们想将它们结合起来,而不是将它们组合在一起,并使用图形用户界面。就像一些公司所说的那样,界面上的变化或图形用户界面是唯一的方法。我将在这里总结一下,我们正在将这两类结合起来。
你将它们结合起来,界面会根据你的需求进行调整,信息在两类之间流动。这与第二个重要事件类似。我想用 AUI 来形容它。
这是原则。所以,我想谈论的第三件事是工作生产力提升。我认为,一般来说,人工智能用户界面是关于创造一个真正的行动系统。
我们存在。我们有任务要做。我们采取行动,对吧?当然,你可以说你想娱乐自己,但这不是生产力。所以,在绘图软件中,我们使用人工智能。
所以,当我们说我们是一个以人工智能为首的工作平台时,这与设计一个能够理解你的工作流程,并从你的习惯中学习的助手有关。每个人都有不同的工作流程。每个人都有不同的服务选择。
所以,对吧?我们使用人工智能来预测你的个人需求,强调这一点,它们可以代表你采取行动,在获得你的许可或参与的情况下,做出比你个人能做出的更好的决策。这些才是真正的灵魂和精神。
关于提高生产力的讨论,它与仅仅取代纸质文档的理念截然不同。它不仅仅是支持编辑相同内容或仅仅关于如何格式化文档,使其更美观。它包含三个方面:学习自身模式、预测个人需求并采取行动。如何有效地安排任务或管理待办事项,始终走在你的前面,确保生产力在工作场所的各个区域和整个生态系统中顺畅地流动。这是关于第二类解决方案。
如果 AI 助手能够理解我的工作流程,并建议我立即或将来采取的行动,那会是怎样的情况?想象一下,AI 会告诉我应该按什么顺序做这些事情,或者它会调用其他工具来帮助我完成这些事情。这将如何运作?或者你是否……
在会议中,AI 是否能够主动告知你,你是否没有正确回答问题?只有你能看到,对吧?仅仅是关于如何进行的。
我们实时进行。
因为公司总是优化你影响他人、使他人变得更好的能力,所以这只是我想说的另一个短语。我谈论的是周五的独特之处。
是的,我谈论的是界面。这就是 AUI,AUI。这与行动或任务流程有关。行动。
任务。
这个流程贯穿你所有需要完成的任务的生命周期,因为它几乎就像你拥有一个非常昂贵的系统,用于关注最重要的任务。你需要关注整个产品生命周期,直到你以时间敏感的方式和以你想要的方式出色地完成该项目,并与你的家人或其他人类建立更好的联系。
这是 Zoom 的目标。AI 首席工作场所是行动或任务流程。如果不需要采取行动,我们可以将这些任务从你的工作中移除。
没问题。你可以决定是否要跟踪这些行动。我们从你那里学习,并改进跟踪能力。但是,如果 AI 助手告诉我某个行动很重要,你应该检查一下。如果眼睛睁开,AI 助手会更加努力地工作。因此,一周后,如果你收到一封电子邮件,其中包含关于任务的更好更新,你的跟踪记录会更可靠,他们会更自信地完成工作,只为了更新你需要做的事情以及如何更好地完成任务。这就是我所说的行动或任务流程。
这正是 AI 助手的一个例子,它就像一个 AI 代理,进入你的……
AI 助手已经具备了在会议中识别能力,不仅仅是识别我,还能识别我正在展示的幻灯片内容,或者你分享的纸上内容,或者你与聊天功能分享的要点。我们将其视为 AI 代理,在会议中实时跟踪。
然后,我们整理会议记录,以最有效的方式识别你需要关注的下一步行动,或者你的同事需要关注的下一步行动。我们提供了一个主要质量,我们为此付出了努力。
因此,在改进下一步行动、减少积压、分配正确任务和写信方面,我们目前大约有 80% 的准确率。所以,我们做得还不错,虽然不是完美无缺,但 80% 的准确率确实令人印象深刻。
我个人在所有尝试和准确性方面都经历过波动,88% 的准确率听起来不错。
因此,在会议中,你们讨论了需要跟踪的任务,并确定了这些任务在未来三到十周内需要完成。跟踪任务的生命周期,这正是你想要尝试的事情。你想要跟踪,你将收到 Zoom 发送的电子邮件,并收到关于你任务的更新。
如果你想视频通话,或者向你的同事汇报状态,该信息会流入 Zoom,Zoom 会提供状态报告。你对一些更改感到满意,而无需做所有事情。使用记事本或 Microsoft Word 来格式化所有内容。
你曾经说过,将某事更改为可以在下次会议中展示的格式,一次完成。是的,对。虽然 PowerPoint 的功能很强大,但关键点与我上大学时,我们展示信息的方式非常相似,当时我们使用的是黑白的撕下纸张,以及投影仪来展示幻灯片。
影响……
仍然是信息流,但具有美丽的色彩动画。这就是我想表达的重点。Zoom 助手实际上正在执行大多数功能,因为你的公司拥有通用 AI。
你可以指示它,你可以总结销售报告,并将其发布为更易于公众理解的幻灯片形式,以便你在下次会议中传达你的观点,而无需使用上一代的幻灯片。这就是 AUI 和行动或任务流程在提高生产力方面发挥作用的标志性时刻。
当然,这主要以网络为中心。这种替代方案可以增加价值。这并非 Zoom 定义的重点,而是将信息流带到任务生命周期的各个角落。
我想今天是 Zoom 的 CTO 黄旭东(XD 黄)。他在这个职位上已经有一年半了。在此之前,他在微软工作了很长时间。这实际上只是他辉煌职业生涯的延续,始于……
我想从公众的角度,特别是从长期使用 Zoom 的商业用户和客户的角度来看待这个问题。当 Zoom 向商业客户介绍 AI、采用其产品以及构建所有这些精彩功能时,我主要想了解如何使用生成式 AI 来帮助员工,以及如何帮助客户思考如何采用 AI 并衡量投资回报率。我们在此次播客中进行过一次深入的讨论。
总的来说,在世界范围内,在过去几年中,人们一直在探索生成式 AI 的潜力,以及如何使用它来重新思考生产力。当你与公司交谈时,你如何教育他们如何入门并衡量绩效?
有一些方法。首先,Zoom 工作场所作为整体办公室,其功能与 Zoom 的聊天功能相匹配。
其次,Zoom Pro 提供的比较优势,对大多数客户来说,无需额外费用即可使用。因为你必须为它付费,有时对吧?Zoom 为高级客户提供定制功能,我们可能会收取 2 美元。问题是……
因此,你可以将自己的模式整合到 AI 助手中,并根据客户的需求进行调整。Zoom 提供了令人惊叹的横向功能,绝对可以改变工作场所的生产力。对于高级客户,我们提供无与伦比的客户体验。该功能每人每月 12 美元,仍然是成本效益最高的解决方案。
我匹配质量。这就是我们为客户提供的。
另一个目标是,随着时间的推移,AI 助手将更多地了解你的工作方式、工作负载、任务顺序以及你与同事之间的合作关系。
AI 助手将帮助你提前几步思考,帮助你最大限度地提高效率。这与我之前听过的关于公司需要整理所有数据、清理数据以及进行大量投资的讨论不同。Zoom 的做法是:你已经在使用视频通话,现在我们将提供一个突破性的助手,改变你完成所有事情的方式,它会一直存在,而你无需做任何额外的事情。
因此,我们为客户提供了选择权。是的,我们已经提高了定制功能,以满足他们的需求。如果他们不这样做,他们可以选择分享多少数据,或者是否要关闭某些功能。现在,复杂性掌握在客户手中。他们可以自行控制。
我写了这些,所以……
给予他们选择权。是的,我想强调的是,Zoom 从未收集过会议中的任何客户数据来训练 AI。
让我们展望未来,如果可以的话。在未来三年内,Zoom 的使命是利用 AI 和生成式 AI 来帮助人们在工作场所更聪明、更好、更快地工作。更广泛地说,随着 AI、机器学习和深度学习的不断发展,它们将对世界产生更大的影响。
在短期内,你最兴奋的是什么?在未来三年内,你最兴奋的是什么?你认为即将出现的新功能,它是否会成为下一个变革时刻,或者仅仅是一种将真正流行并改变我们工作方式的趋势?你正在关注哪些方面?
这个行动流程将如何改变你的公司?是的,这绝对是一个游戏规则改变者。我可能没有足够的时间。当然,如果 AI 助手能够帮助你快速完成工作,你就可以有更多时间做任何你想做的事情。这是一种额外的生产力功能,一些娱乐功能。
但无论如何……
这也会让你的工作更快乐,生活更快乐,并让你做你想做的事情。
每个人都……
让客户满意是核心使命。
优秀的 XD。对于那些想了解更多关于 Zoomtopia 活动的公告的人,也许有一些技术博客,供那些更技术倾向的人了解你如何处理联邦 AI 和我们讨论的其他内容。人们可以从哪里开始了解这些内容?
是的,你可以访问 Zoom 的网站。这可能是……
最好的资源。
但即使如此,它仍然是一个在工作场所中使用 AI 的革命性公司。但你不知道……
你如何……是的,XD,非常感谢你抽出时间,尤其是在这周结束的时候。我相信这对你来说是一周忙碌而疯狂的一周,但祝贺你取得的成就。我个人很期待使用 AI 助手,如果我可以在我的屏幕上看到一个面板,它总是告诉我应该做的事情,这对我来说将是一个巨大的改变。
生产力软件。
太棒了。再次感谢。也许我们可以在未来的某个时间再次讨论这个话题。
解决方案。谢谢。很高兴在这里。