<context>产品主导的 AI:Mustafa Suleyman 对智能的定义 产品主导的 AI 嘉宾剧集,由 Greylock 合伙人 Seth Rosenberg 主持。在本集中,他与 AI 先驱 Mustafa Suleyman 进行了交谈,Mustafa Suleyman 通过几次重大飞跃一直处于该技术的前沿。作为 DeepMind 的联合创始人、谷歌 AI 政策和产品副总裁、Inflection 的联合创始人,以及现在的微软 AI 首席执行官,他见证了 AI 发展成为当今的变革性技术。他分享了他对 AGI、自主代理和初创公司机遇的看法。您可以在 https://productledaipod.com/podcasts/defining-intelligence/ 阅读本次采访的文字记录。您可以在 https://youtu.be/cNzRviY4Ei8?si=0Drr1xNbWkkbhPJf 观看本次采访的视频。了解您的广告选择。访问 megaphone.fm/adchoices</context> <raw_text>0 您好,欢迎收听 Greylock 的播客 Gray Matter。今天,我们将重点介绍产品主导的 AI 的另一集,该系列由 Greylock 合伙人 Seth Rosenberg 主持,他讨论了 AI 应用层的机会。本周的嘉宾是 Mustafa Suleiman,他领导微软的 AI 工作。您可以在 productledaipod.com 找到有关本集和整个系列的更多信息。现在,让我们听 Seth 讲述产品主导的 AI。
嗨,我是 Seth Rosenberg。我是 Greylock 的合伙人,也是“产品主导的 AI”的播客主持人,这是一个探索 AI 应用层机遇的系列节目。Mustafa,非常感谢您的加入。嘿,Seth。很高兴再次见到你。感谢邀请。非常高兴 Mustafa 能来这里。正如许多观众所知,Mustafa 是 AI 领域的领先先驱之一。他目前担任微软 AI 首席执行官,Greylock 风险投资合伙人,Inflection AI 的前联合创始人,以及
也是 DeepMind 的联合创始人,DeepMind 当然是被谷歌收购的,在那里他成为谷歌的 AI 副总裁。所以 Mustafa,我很荣幸能够通过 Greylock 与您合作,也能够让您在这里分享您对当前空间的看法,该空间正在如此迅速地发展。所以也许一开始,我很想知道更多关于您在 AI 成为显而易见之前是如何决定专注于 AI 职业生涯的。
回顾过去,这有点奇怪。我最近不得不写我的 TED 演讲,我反思了 15 年后事情是多么疯狂。当我们第一次开始谈论在 2010 年成立 DeepMind 时,
很难夸大我们当时有多么古怪。你知道,人们经常说,创业就是选择痴迷地从事一些非常反传统的事情,并且,你知道,尝试一些其他人认为不可能的事情。我认为在我们的案例中,人们不仅认为这是不可能的,他们认为这是完全荒谬的。老实说,我不太确定我们是如何对自己的能力有如此大的信心,以至于能够尝试做一些如此
超出分布和特殊的事情。DeepMind 最初的见解是什么?我们不仅仅开始研究 AI 或机器学习。我们完全致力于研究人工通用智能,创造一个能够在各个层面超越人类能力和知识的系统。我们之所以有动力这样做,是因为我们真心希望利用 AI 来解决其他问题,并使世界变得更美好。
我认为当时没有任何学术实验室或环境能够适应我们认为必要的投资规模。在学术实验室中,人们并不关注大规模工程。当然,人们也不关注产品。
即使是在你从政府工作中获得的那种大型国家项目投资中,也没有任何东西像是一项技术努力,试图大规模地理解什么是智能,并在重要问题上部署它。所以它实际上只是像……
初创公司,我认为,像这项任务一样勇敢和无畏,才能在这项任务上取得成功。到那时,那是我第三次创业。感觉这只是唯一的方法。因为你通过搞砸并弄清楚如何正确地去做,会在沿途学到很多东西。我之前在
非营利部门、政府、冲突解决和调解方面工作了很多年,实际上创办了两家小公司,一家专注于向餐馆销售网络设备和电子销售点系统。但这在当时是不可能的。那是一次失败。我意识到的是,我们需要更多知识和洞察力来帮助我们解决
我们系统压倒性的复杂性。如今,对复杂的社会系统(如经济、粮食生产系统或金融系统)进行干预,并确信这种干预会产生您认为的影响,是如此困难。
我认为,这正是我们需要惊人的 AI 的原因之一。我们需要能够对我们世界中的复杂性做出良好的预测,以便创造价值并改变世界,帮助人们过上更健康、更美好的生活。听起来很俗套,但这确实是当时以及现在激励我们的原因。
我很想知道。所以你有一个使命,那就是为世界释放丰富的智能实际上可以解决重要的问题。在这种情况下,你如何定义智能?让我相信我们实际上能够在发明智能方面取得进展的是我们的第三位联合创始人 Shane Legg,他花了整个博士生涯研究
各种智能定义,并试图将它们聚合到一个单一的指标中,我们可以利用这个指标将智能科学和理解生物智能的神经科学转化为工程努力,并真正将其转化为一种可衡量的、可量化的练习。他提出的定义是能够在各种环境中表现良好。
所以,再次强调普遍性。那就像一个主要的……
现在,每个人都认为 AGI 部分理所当然,好像 G 是智能的核心部分,但这是一种假设。普遍性恰好是智能的特征之一,但它并非唯一重要的特征。而且事实证明,它也很难衡量,也很难缩小到你可以真正掌握的东西。而另一种定义是图灵测试,当然,如果一个系统能够
在自然对话中欺骗人类使其认为它本身是人类,那么这个系统就是智能的。在某种程度上,我们已经跨越了这种智能的门槛,对吧?我们现在拥有的系统非常擅长对话,至少在几次对话中可以……在许多方面,它肯定比人类更好,对吧?你仍然可以看出它是一个 AI 或聊天机器人,而不是人类,但在几年后,你真的就无法分辨了。然而,这并没有真正告诉我们这些系统是否真的智能。
每次我们在 AI 的基准或里程碑方面跨越一个门槛时,你就会转过身去说,好吧,这是这种测量机制的所有问题,这是我们需要测量的下一件事。
我听说 Reid 说 AGI 是我们还没有的 AI。它总是被推到未来。没错。它就像我们用来追赶、前进的不断晃动的胡萝卜。所以我提出的另一个衡量标准是,我们应该更多地关注系统的功能、行为、它可以做的事情、我们可以观察到的事情,它可以在某些环境中产生影响,而不是这种抽象的想法
它是否普遍或擅长进行对话?这基本上就像,它能否在实际环境中产生人类质量的劳动,并为此赚钱?或者它能否编写软件,例如?这是一个非常容易衡量的事情。我称之为现代图灵测试,并说在未来五年内,一个系统将能够承担一个非常抽象的目标,例如创建一个新产品。
获得这种设计、制造、直接发货,然后分销和销售,并试图从中获利。然后你可以用赚取一百万美元之类的来衡量利润。我认为肯定会在 2030 年之前出现一个能够做到这一点的系统。
是的,太棒了。而且这是可能的。你是否期望这种类型的系统实际上会在 G 上进行权衡,在通用性上,它实际上是为特定用例而构建的?是的,我认为我们更有可能拥有真正强大的系统,这些系统专门用于具有真正深厚领域专业知识的特定用例,而不是拥有这种通用的系统,它可以从营销人员切换到临床医生,再到医生,
成为律师等等。我的意思是,显然,一般情况会在之后出现。所以我想花一点时间来了解一下你对当今大型模型现状的看法。也许你想先为听众介绍一下导致我们目前 GPT-3、GPT-4 风格模型、Inflection 2.5 风格模型状态的转折点,这种转换器架构和缩放计算的组合。
我认为这场革命是由深度学习驱动的。我们仍在构建深度学习模型,尽管现在风格略有不同,即 2017 年的转换器架构。我们现在……
将它们变成可组合的单元,这些单元基本上将充当我们软件开发生态系统的一部分。你只需要转向你的 AI,它就会为你生成代码。我的意思是,我们已经通过 GALP Copilot 看到这一点,并且我们看到它作为你的团队成员能够接受自然语言指令
并与你一起行动。我认为人们不太意识到的是,这些模型不会永远很大。在所有有价值的技术的历史中,任何有意义的东西都会随着时间的推移而变得更便宜、更容易使用。而这条曲线在过去几年里呈双指数增长。这令人难以置信。我的意思是,微软 AI 刚刚发布了
PHY3,完全开源。它接近但并不完全达到 GPT-4 的水平。它是完全开源的。它有 38 亿个参数,对吧?所以就推理计算而言,它比当今模型的绝对前沿小 100 多倍。
就像我说的,它并不完全一样好,但它肯定与 GPT 3.5 一样好或更好。这令人难以置信。我的意思是,将来这可以安装在你的笔记本电脑或手机上。因此,我们应该期望这种轨迹继续下去。我认为开源模型将
紧随封闭源专有 API 模型之后,几个月,甚至可能只有一年或一年半左右。这将彻底改变整个创作环境。是什么使这个模型能够在性能几乎相同的同时也更小?在过去几年里,每个人都专注于来自人类反馈的强化学习,在训练的最后阶段,
在微调或后期训练阶段,正如人们所说的那样,你有一群训练有素的评估者或评委来比较模型的两种可能的响应或完成情况。这种成对比较为模型想要表现出的行为类型提供了大规模的反馈。现在每个人都熟悉这一点。
但是,一旦这显示出有希望的迹象,在过去大约 18 到 24 个月里,我们一直专注于来自 AI 反馈的强化学习,我们真的希望非常聪明和有能力的模型来进行这种成对比较。因为显然我们可以自动化这个过程,并且我们可以产生更大数量的监督、微调标签,以向该过程提供更多反馈
预训练模型涵盖更广泛的经验和时刻,如果只有少量来自昂贵、训练有素的人类的样本,这些经验和时刻可能会相互冲突。所以一种方法是来自 AI 反馈的强化学习。然后第二种方法是从这些模型生成训练数据。
所以有时人们将其称为蒸馏,你试图尽可能多地吸收大型强大模型的最佳部分。然后你用它来后期训练或调整你的小型模型。参数计数不再是能力的主要指标。高质量数据是这里真正的宝贵资产,除了架构之外。
所以在过去的 6 到 12 个月里,每个人都专注于计算、计算、计算。我能获得计算能力吗?显然,这对于大型模型来说很重要,但实际上是投资高质量数据。所以从初创公司的角度来看,我认为真正的诀窍是
寻找现有的数据源,或者更重要的是,创建一个 UI,允许你从你认为有价值的产品领域交互中收集高质量数据,这将产生一个高度有价值的数据护城河,你可以用它来后期训练和微调你的模型,并再次进入这个反馈循环。
这是一条创造巨大价值的途径。它不需要你依赖大型模型提供商,我认为这是一个很好的
这就是为什么创业领域如此具有创造力。作为一家初创公司,你正在与拥有大量数据集的现有公司竞争。所以我很想知道你是否可以分享更多关于初创公司可能存在的机遇的细微之处,这些机遇可能获得比其他数据更有价值的特定类型的数据。好的。那么你如何收集高质量的数据呢?因为显然在预训练中,它是关于标记的数量,对吧?
在那里,超大规模公司将拥有长期优势,因为他们已经拥有搜索引擎或 YouTube 或其他任何东西,对吧?而在后期训练中,你需要少量非常高质量的标记来使模型与你想要的产品行为保持一致。你可以从头开始收集这些数据。
当我们构建 Pi 时,我们创建了,并且直到今天,它仍然是市场上具有最佳 EQ 的最优质类人对话式 AI。我们没有使用任何来自大型提供商的数据。我们自己从头开始收集所有数据,方法是培训付费教师。我们称他们为 AI 教师。有些人称他们为评估者。但对于初创公司来说,至关重要的是……
你必须真正、真正、真正地关注培训这些教师。你必须付给他们很多钱。让我告诉你,从我们的角度来看,我们选择受过大学教育的人,至少如此,他们大多以英语为母语,但也有一些例外。
他们拥有我们认为有价值的领域专业知识。也许他们说他们对历史非常热情,或者他们有良好的文化知识,或者他们是电影迷,或者其他什么。他们必须经过我们 20 小时的培训和测试。
所以我们会给他们阅读理解考试。我们会给他们选择题。他们必须完成句子。他们必须找出不同之处。他们必须完成非常困难的分析任务。为了让我的团队对这项任务的价值保持谦逊,我显然也会让我的所有团队成员都接受同样的培训,并参加同样的测试。我可以告诉你,甚至大多数人都没有通过。
是的,我正要这么说,我很紧张。我以为你会说……测试中心。是的。你知道,这实际上并不容易。这是一件相当困难的事情,因为如果你考虑这项任务,你要求一个人阅读两段 10 轮对话。
查看一个模型和另一个模型提出的答案,然后吸收一个巨大的行为策略,例如逐行非常详细地说明,AI 应该做 X,不应该做 Y,在这种情况下应该这样做。然后你必须记住 AI 教师的培训,它说明了各种微妙的例外情况、风格基调、品牌内容、背景内容和能力意识。
然后你必须找到所有这些的正确交集来决定,这段话更符合行为策略,还是这段话更符合?是的。这是一项痛苦的任务。
这非常有趣。我很想知道你如何看待这种演变,对吧?因为你提到我们正在从仅来自人类的强化学习转向来自 AI 的强化学习。那么你如何看待初创公司在垂直整合与他们真正需要成为专家的堆栈部分之间的应用层呢?
是的,这是一个很好的问题。我的意思是,我认为你必须在回答这个问题时非常有原则。这就是你的初创公司的赌注所在。你必须决定我要押注哪一部分?显然,很多人正在构建工具和基础设施,这很好。我们都熟悉这种策略。我非常相信构建和拥有你自己的产品,并尽可能多地控制
那里的关键价值位,在我看来,是 LLM,而围绕它的所有东西都是次要的。从 LLM 中出来的词语是你必须关注的。这意味着
我认为从其他人那里获取预训练模型是合理的。这是一种很好的方法。但我认为你需要拥有你的微调堆栈,我不会把微调的东西交给别人。你必须培训你的教师,因为这在不久的将来不会消失。我们明天不会有 GBT-5
并且突然 GBT-5 取代所有人类成为最终的评委或教师。我认为这是不太可能的。它会比 GPT-4 好得多,但即使是那些尝试使用 GPT-4 进行 RLAIF 的人,质量也还可以,而且令人印象深刻,非常酷,但它并没有即将完全取代人类。你可以创建一个 80% 的原型,它看起来不错
但真正的消费者体验需要你掌握 99% 的体验。它必须始终保持高质量。一旦 AI 突破角色,犯了错误,产生了幻觉,无论你称之为什
模糊性、不精确性、多种可能的答案是关键。如果你选择一个问题领域,如果出错后果非常严重,而且只有一个或两个正确的答案,那么你的模型就会难以应对。这是我要说的第一点。寻找更多这样的问题。
关于这一点,在确实需要更高精度领域的活动有很多,例如法律、会计或税务。你认为目前这种努力是徒劳的吗?实际上,法律并不像采取行动那样需要那么高的精度,对吧?所以即使在法律领域,大多数应用也只是检索类似案例或提供案例摘要,对吧?
或者有五个可能的摘要,所有这些都可能是正确的,对吧?对。或者你在检索一个案例而不是另一个案例时,你不需要。所以法律实际上是一个高风险领域,因为如果它出错,后果会非常糟糕。对。但不像生成营销文案,而是实际上……
实际上,这场辩论有很多正确的答案。医学要困难得多。显然,医学中正确的答案较少,后果也十分严重。所以这是一个相当困难的辩论。我一些来自DeepMind Health的非常好的朋友,他们现在都在谷歌工作,上周刚刚发表了一篇论文。他们所做的令人难以置信的工作表明,他们基本上可以提供一个惊人的推理引擎
为临床医生,我认为将来也会为病人提供。这很快就会到来。你还会考虑哪些其他因素?我会说,你可以设计一个界面,通过界面自然地收集有价值的标签数据进行微调。
这非常重要,因为如果你成功了,你希望能够使这种成功复合,因为用户越多,你获得的数据就越多,质量就越高,你可以产生的模型质量就越高,然后你就会得到这个良性循环。所以这是非常重要的一部分。然后听起来很明显,但我认为我们所处的领域是
你可以比你想象的更快地获利,因为你需要让人们很快为此付费,因为众所周知,GPU非常昂贵。你能想到一个这样的例子吗?我认为那些为并非一万名粉丝,而是像一万名真正的粉丝,但像那些真正需要这种利基市场服务的公司
高度适应的专家系统就在你的口袋里。我不知道它是一个机械师、牙医,还是一个对某种爱好或一部分知识产权充满热情的人。我认为这些类型的专业用例是有价值的,人们会愿意为此付费。
是的,这很有道理。我很想知道你正在微软开发的AI产品,产品组合是什么样的。我负责必应、Edge浏览器和所有Copilot,它现在基本上部署在每台微软Surface设备上。实际上,这是一个令人印象深刻的成果。产品的质量、规模和影响范围比你想象的要大得多……
作为一个在谷歌长大的硅谷人。你不会无缘无故成为一家价值3万亿美元的公司。是的。但是我们在硅谷对它的评价与其拥有的东西相比,我认为需要重新考虑,而且规模和分销也巨大。我的主要目标是提高Copilot的质量。因此,我们正在快速构建世界上一些最好的模型
与OpenAI密切合作,在所有OpenAI模型和基础设施之上构建,微调其模型。下一阶段是我们将真正开始关注记忆和个性化。我的意思是,你的AI应该记住你的一切,你的背景,你的个人数据,你所说的一切,并随时支持你,成为你生活中的助手和伙伴。所以这就是我们接下来要关注的。
这很有趣。我很想知道,你如何看待现有应用程序(Microsoft Office)与Copilot理想版本的约束?是的,这是一个好问题。人们经常说,人工智能包含所有其他界面和表面。我认为这可能夸大了,但方向是对的。我认为几年后会有一段时间
你首先想到的是你只需要说:“嘿,Copilot,你能帮我处理一下吗?答案是什么?我在哪里可以找到它?你能预订这个吗?记住这一点。买这个。做这个。”你将拥有这个始终存在的助手,它将改变使用键盘的意义。它将改变拥有应用程序的感觉。它将把我们带到搜索引擎之外。
和浏览器,你肯定不会认为我需要以传统方式编写文档或发送消息。你仍然会有这些东西,但你的AI将管理你整个生活中的活动画布,并在很大程度上与其他AI和其他服务协调,为你收集信息。
好的,我们就说到这里。Mustafa,非常感谢你今天抽出时间,也很高兴和你聊天。是的,很高兴见到你,Seth。非常感谢。很有趣。谢谢。再见。感谢收听Product-Led AI。你可以在网站productledaipod.com上找到更多关于今天采访和整个系列的信息。你可以在所有主要的播客平台上订阅该节目,并在YouTube上观看该采访的视频版本。
如果你想将所有链接和详细信息直接发送给你,请注册我的LinkedIn通讯。我是Seth Rosenberg,这是Product-Led AI。