We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Model Plateaus and Enterprise AI Adoption with Cohere's Aidan Gomez

Model Plateaus and Enterprise AI Adoption with Cohere's Aidan Gomez

2024/11/21
logo of podcast No Priors: Artificial Intelligence | Technology | Startups

No Priors: Artificial Intelligence | Technology | Startups

AI Deep Dive AI Chapters Transcript
People
A
Aidan Gomez
Topics
Aidan Gomez 分享了他从在加拿大森林长大到成为世界最重要技术论文的合著者之一的个人经历,并讲述了他在 Google Brain 的实习经历以及与多位 Transformer 论文作者的合作。GPT-2 的出现让他意识到大型语言模型的潜力,促使他创立了 Cohere,致力于帮助企业应用 AI 技术。 Sarah 就 Aidan Gomez 的个人背景、Cohere 的使命和产品、企业 AI 应用的挑战以及对 AGI 的看法等方面进行提问。

Deep Dive

Chapters
Aidan Gomez discusses his journey from growing up in Canada to co-authoring the influential paper 'Attention is All You Need' during his internship at Google Brain.
  • Gomez was influenced by his environment at the University of Toronto, where Geoffrey Hinton taught.
  • He managed to secure an internship at Google Brain, which led to his involvement in the transformer paper.

Shownotes Transcript

嗨,各位听众,欢迎收听 No Priors。今天,我们与 Aidan Gomez 畅谈,他是 Cohere 的联合创始人兼首席执行官,Cohere 是一家在 2024 年估值超过 50 亿美元的公司,为企业提供 AI 驱动的语言模型和解决方案。Aidan 于 2020 年创立了 Cohere。但在此之前,在他作为 Google Brain 实习生的期间,他参与合著了具有里程碑意义的 2017 年论文“Attention is All You Need”。感谢您今天来到这里。

是的,谢谢。

很高兴您能来这里,也许我们可以从一些个人背景开始。您是如何从在加拿大森林中长大到参与撰写世界上最重要的技术论文之一的呢?

很多运气和偶然的机会。嗯,我碰巧在杰夫·辛顿教授任教的地方上学,所以,嗯,杰夫最近获得了诺贝尔奖。他被认为是深度学习的教父,而多伦多大学(我上学的地方)就是他任教的地方。

他是一位传奇人物,几乎所有在该校学习计算机科学的人都想进入 AI 领域。所以在某种意义上,我觉得我是在 AI 的氛围中长大的,高中毕业后,我就沉浸在一个真正看到未来并希望构建未来的环境中。从那时起,就发生了一系列令人高兴的意外。所以我设法在 Google Brain 与 Lukas Kaiser 获得了实习机会,实习结束时我才知道我不应该获得这个实习机会,这个实习机会原本是为博士生准备的,所以他们为我举办了一个告别派对,然后 Lukas 说,“好吧,Aidan,你回去还要读几年博士?”我说我还要读三年本科,他说:“我们不招本科生。”我认为这是一系列非常幸运的错误,让我加入了那个团队,从事真正有趣且重要的工作。

Google 有什么让你相信你应该创立 Cohere 的?

是的,我四处奔波,当我与 Luca、Noam 和 Transformer 团队的其他成员一起工作时,我在山景城。然后我回到多伦多大学,开始与 Hinton 和我的联合创始人 Nick 在多伦多一起工作。我在那里进行大脑研究,然后我开始攻读博士学位,去了英国,与 Yao 一起工作,他是另一篇 Transformer 论文的作者。

在柏林。还有 Young S.A. 不错。

是的,是的,好的。粉丝。好,好。嗯,我在柏林与 Yao 一起工作。然后我也远程与 Jeff 和 Sanjay 合作进行 Pathways 项目,这是一个比超级计算机更大的训练项目。

嗯,这个想法是将超级计算机连接起来以创建一个新的更大的计算单元,在大型模型上进行训练。那时,GPT-2 和 GPT-3 已经问世,很明显,我们所处的技术轨迹是一条非常有趣的道路。这些表面上是互联网模型、网络模型的模型,将产生一些非常有趣的事情。

所以我打电话给 Nick,我打电话给我的其他联合创始人,我说,也许我们应该弄清楚如何构建这些东西。我认为它们将是……

对于那些还不知道的人,你能在高层次上描述一下 Cohere 的使命是什么,以及它的模型和产品是什么吗?

我们的使命是,我们希望通过使其他组织能够采用这项技术并提高其员工的工作效率或改变他们提供的产品和服务来创造价值。所以我们非常关注企业。我们不会去构建 ChatGPT 的竞争对手。我们想要构建的是一个 AI 平台和一系列产品,使企业能够采用这项技术并使其发挥价值。

就您的目标以及您如何组织团队和投资而言,您显然自己也来自研究背景。您认为 Cohere 的成功在多大程度上取决于核心模型,以及您所做的其他平台和市场支持投资?

所有这些都是必要的,模型是基础。如果您建立的基础无法满足客户的需求,那么就没有希望了。因此,模型至关重要,它们是公司的核心。

但在企业界,客户支持、可靠性、安全性、可扩展性等都非常重要。因此,我们在两方面都进行了大量投资,我们不仅仅是一个建模组织,我们是一个建模和市场营销组织,而且产品正日益成为 Cohere 的优先事项。因此,我们正在寻找方法来缩短客户的价值实现时间。

在过去 18 个月中,自从企业界开始关注这项技术以来,我们观察到,我们已经看到人们使用我们的模型构建东西,看到他们取得的成就以及他们犯的常见错误。这很有帮助,有时也很令人沮丧,对吧,一遍又一遍地犯同样的错误。但我们认为,有一个巨大的机会能够帮助企业避免这些错误,并第一次就把事情做好。这就是我们努力的方向。

是的,你能更具体一些吗?最让你沮丧的错误是什么?产品如何解决这个问题?

是的,我认为所有语言模型都对提示、对您呈现数据的方式非常敏感。它们都有各自的特性,您与一个模型交流的方式可能不适用于另一个模型。因此,当您构建一个 RAG 系统(检索增强生成系统),其中有一个外部数据库时,您如何将检索到的结果呈现给模型就非常重要。

数据在这些数据库中的存储方式也很重要,格式很重要。这些细节往往会被人们忽略。他们高估了模型的能力,他们认为模型像人类一样,这导致了很多重复的失败。

人们尝试实施 RAG 系统。他们不知道正确实施 RAG 系统的这些特性,然后它就失败了。因此,在 2023 年,有很多概念验证。

很多人试图熟悉这项技术,理解它。而许多概念验证都失败了,因为不熟悉,因为……是的,这些我们已经看到的常见错误。因此,展望未来,我们有两种方法。

一种是使模型更健壮。因此,模型应该能够应对您呈现数据的许多不同方式。第二部分是使我们向用户公开的产品更结构化。因此,与其只提供一个模型并说,“好的,提示它,祝你好运”,不如围绕它构建更多结构,创建更严格地定义如何使用模型的 API,这些部分我认为可以减少失败的机会,并使这些系统对用户更易于使用。

人们在尝试做什么?你能给我们一些关于你在企业中看到的最大用例的介绍吗?这范围很广。

它几乎涵盖了每个垂直领域。常见的事情包括问答。因此,对于一个语料库,如果您是一家制造公司,您可能希望为您的工程师或装配线上的工人构建一个聊天机器人,并插入所有不同工具的手册以及常见零件错误的诊断手册,然后让用户与之聊天,而不是打开一本厚厚的书并试图找到他们需要的东西。类似地,还有针对普通企业员工的问答机器人。

因此,插入您的 IT 常见问题解答、人力资源文档、关于您公司的所有内容,并创建一个集中式聊天界面来访问您组织的知识,以便他们可以得到问题的解答。这些是一些常见的情况。除此之外,还有一些我们支持的特定功能。

一个很好的例子可能是一家医疗保健公司,他们有这些冗长的患者电子病历,其中包含患者与医疗保健系统进行的每一次互动,从药房的访问到不同的实验室检查或测试,再到医生就诊,这些记录可能持续几十年。因此,这是一个关于某人病史的巨大记录。通常情况下,患者会打电话给前台说:“我的膝盖疼,我需要预约。”医生需要浏览过去的几次记录,看看这种情况是否发生过,也许他们错过了两年前的事情,因为他们只有 15 分钟的时间来会诊。但是,我们可以做的是,我们可以将整个病史以及他们就诊的原因一起提供,这样就具有上下文相关性,对吧?他们说他们来这里的原因是什么,并为医生提供简短的介绍。这对于医生来说审查起来要快得多,而且通常它还会发现医生在每次患者会诊前不可能审查到的东西。

他们不会浏览 20 年的病历。这是不可能的。但是模型可以做到。

我们可以在不到一秒钟的时间内做到这一点。因此,这就是我们使用问答机器人等功能的方式。许多这些……你可能会认为它们很普通,但影响是巨大的。

我们看到大量的初创公司正在解决诸如……比如说,企业级 RAG、针对特定垂直领域的专业应用程序,甚至查看医疗记录并根据它们进行推理和检索。您如何看待……最终状态,没有最终状态,但是……对于企业如何从比如说专业 AI 驱动的应用程序提供商那里消费,与使用 AI 平台和模型 API 在内部构建的自定义应用程序相比,稳定的平衡状态是什么?

我认为这将是混合的。我认为这可能像一个金字塔,金字塔的底部是每个组织都需要的东西,就像副驾驶一样,每个员工手中都有一个通用的聊天机器人来回答他们的问题。然后,当你向上移动金字塔时,它就越具体,越针对公司本身或他们运营或提供的特定领域产品。

当你向上推金字塔时,你越不可能找到现成的解决方案来解决这个问题。因此,你将不得不自己构建。我们鼓励组织制定一个包含所有这些的策略。是的,你需要通用的标准化内容。也许有一些行业特定的工具你可以购买,但是如果你要构建,不要构建那些你可以购买的东西,而是专注于没有人会卖给你的东西,这些东西能让你获得独特的竞争优势。

所以我们与这家保险公司合作,他们为大型工业开发项目提供保险,结果我对此一无所知,结果他们所做的是,矿山或任何项目都会发布一份 RFP(投标邀请书),保险公司会让精算师来处理 RFP。他们会对土地进行大量的研究,了解潜在的风险。这实际上是一场竞赛,谁先回应通常就能得到它。

所以这是一个基于时间的事情。精算师能够多快地提出一个经过充分研究的提案。所以我们与他们一起构建了一个研究系统。

因此,我们将精算师进行研究的所有知识来源都插入了一个 RAG 系统。我们给了他们一个章节,它极大地加快了他们对 RFP 的回应能力。因此,它帮助他们发展了业务,因为他们赢得了更多 RFP。

所以,我们构建了非常通用的技术。现在这有点像 AI CPU。我不知道 CPU 的所有应用,对吧?它太广泛了,真正深入的东西或能让你领先的竞争优势是倾听客户的声音,让他们告诉你什么能让他们领先。所以,我们一直在做的很多事情就是成为一个思想伙伴,帮助他们集思广益这些对他们具有战略意义的项目和想法。

我注意到这家公司之所以能获胜,是因为绝大多数竞争对手都无法如此迅速地采用并构建这种研究助理产品,这帮助他们……您认为企业采用的最大障碍是什么?

我认为最大的障碍是信任。安全性是一个很大的问题,尤其是在金融、医疗保健等受监管的行业,数据通常不在云端,或者如果不在云端,就不能离开他们的 VPC(虚拟专用云)。所以它被严格锁定,非常敏感。

因此,Cohere 的一个独特的优势是我们没有把自己锁定在一个生态系统中,如果需要,我们可以进行本地部署,在 VPC 内或 VPC 外,客户想要什么,我们都能做到。我们可以访问更多数据,即使是最敏感的数据,并提供更有用的东西。所以我会说安全和隐私可能是最大的问题。

除此之外,还有知识,对吧,比如构建这些系统的知识。它们是新的,对人们来说并不熟悉,最有经验的人也只有几年的经验。所以这是另一个主要因素。我认为这实际上只是一个时间问题,最终开发人员将更熟悉使用这项技术进行构建。但我认为还需要两三年时间,它才能真正渗透到……你认为这就像一个传统的……

企业技术的炒作周期问题,对于大多数技术来说都是如此,但对于企业技术来说尤其如此,存在一个幻灭低谷的概念,人们对某件事感到非常兴奋,但它比他们想象的更难应用或更昂贵。我们是否在 AI 中看到了……

我肯定我们看到了一些,当然了。但我认为,老实说,核心技术仍在稳步改进,每隔几个月就会解锁新的应用。所以我认为我们还没有真正进入幻灭低谷。是的,感觉我们还处于非常早期的阶段。

如果你看看市场,这项技术解锁了一整套全新的东西,你可以构建它们。你以前根本无法构建它们,而现在可以了。因此,正在进行技术、产品和系统的重新构建。

即使我们没有训练任何新的语言模型,比如说,好的,所有数据都爆炸了,我们可以改进我们今天拥有的模型。我们还有五年的时间来整合它,来构建所有这些东西,来构建……你知道的,那个保险 RFP 响应机器人,来构建医疗记录摘要,还有五年的时间来重新构建。

我们还有很多工作要做。

我认为我们已经过了那个阶段。有一个问题是,哦,是不是炒作过度了?这项技术真的有用吗?但它已经掌握在数百万甚至数亿人的手中。

现在它已经投入生产了。它的价值非常明确。该项目现在正在将 IT 应用于实践,并将其交付给全世界。

关于将其整合到真实的……某些 IT 系统中的问题,当然就像接口和变更管理,以及弄清楚用户如何理解模型输出以及所有这些……特别是当我们考虑模型专业化时,您是否为客户提供了一些内部使用的框架,来确定他们应该投资哪种版本的 IT?因此,我们有预训练、后训练、微调、检索,就像传统意义上的提示一样,特别是当我们获得更长的上下文时,您是如何告诉客户理解如何进行专业化的呢?

这真的取决于应用程序。例如,我们与日本最大的系统集成商之一 Fruit 合作,构建了一个日语语言模型。如果没有干预预训练,你根本无法做到这一点。

你不能有效地微调或后训练日语。所以你必须从头开始。另一方面,对于更狭窄的事情,例如,如果你想改变模型的语气,或者你想……我不知道,改变它格式化某些内容的方式。

我认为你可以只进行微调。你可以采用最终状态……所以存在这种梯度。我们通常建议客户从最便宜、最简单的事情开始,即微调,然后倒退。

所以先进行微调,然后回到后训练,就像 SFT、RLHF 一样,如果需要的话。你知道,这是一个旅程,就像你谈论的生产系统一样,约束越来越高,你可能需要接触预训练,希望不是全部重新训练。希望只是最后 10% 的预训练,或者可能是 20% 的预训练。但是,是的,我们通常认为 IT 就像从最简单、最便宜的事情到最复杂的事情的旅程。但性能最高。

沿着从最便宜的东西到最贵的东西的梯度移动对我来说是有意义的。任何企业客户都会投资预训练的想法,我认为有点争议。我相信一些实验室负责人会说,没有人应该碰这个。对于所需的计算和数据量,以及进行任何具有竞争力的重新训练所需的专业人才而言,这没有任何意义。你对此有何反应?

我认为,如果你是一个大型企业,并且拥有大量数据,例如数千亿个标记的数据,那么预训练是一个你可以利用的真正层次。我认为对于大多数中小企业,当然还有初创企业来说,这毫无意义。所以你不应该预训练模型。

但是,如果你是大型企业,我认为这应该是一个认真的考虑因素。问题是重新训练多少?这不像你从头开始,进行一次价值五千万美元的训练运行。

但是你可以进行一次五百万美元的训练。这就是我们看到这类持续重新训练工作取得成功的案例。是的,这是我们提供的服务之一。

但当然,我们不会直接跳进去。如果你不想,你不需要大量支出。通常,企业购买心理学技术采用周期相当缓慢。

所以你有时间倒退到 IT。我会说这完全取决于客户的方向。但对于那些说没有人应该重新训练的人来说。

除了,比如说,AGI 实验室之外,没有人应该进行预训练。

这是当务之急。

错了,也许吧。所以,就像一个很好的跳板,可以谈谈技术领域正在发生的事情,以及这意味着什么。你说 Cohere 的模型是基础模型……而且我相信你还说过,去年发布的模型没有市场。你如何将这一点与资本支出、竞争加剧以及开源模型的兴起相协调?

现在,我认为你必须花钱。你需要达到一定的最低门槛才能构建一个有用的模型。随着技术的发展,训练模型的计算机越来越便宜,数据源……好吧,在某些方面越来越便宜,在其他方面则不然。对于合成数据来说,它变得便宜得多。

但是对于专家数据来说,它变得越来越难获得,也越来越贵。因此,我们看到的是,今天,你可以用一千万美元、两千万美元就能构建一个在所有企业可能关心的方面都与 GPT-4 一样好的模型,这比开发该模型所花费的成本要低几个数量级。因此,如果你愿意等待六个月或一年来构建这项技术,你可以以一小部分那些前沿实验室为开发它所支付的成本构建它。

所以,Cohere 战略的一个关键部分是,我们不需要首先构建那个东西。我们会做的是,我们会弄清楚如何以更低廉的成本做到这一点,我们会专注于对客户至关重要的部分。因此,我们将专注于客户真正依赖的功能。

与此同时,与普通的初创公司相比,我们仍然需要支付超级计算机的费用,这些费用每年需要花费数亿美元。所以它是资本密集型的,但它不是资本效率低下的。很明显,我们可以从我们正在构建的东西中建立一个非常有利可图的业务。所以,战略是不要领先,不要烧掉,你知道,每年三到七亿美元。为了走在前列,落后六个月,并向企业提供真正符合其需求的产品,价格点是……

这解释了为什么根本要花费资金购买超级计算机并自己进行训练,因为开源选项越来越多。

你不会真的这么说,更多的是针对 LLM?是的,你会在它冷却下来并且梯度为零时获得基础模型。你会在它冷却下来并且梯度为零时获得后训练模型。

获取这些模型并尝试对其进行微调,这只是……它不如自己构建有效,而且你可以使用的杠杆也少得多。如果你真的可以访问数据,并且可以更改进入该过程的数据,那么情况就会大不相同。因此,我们认为,通过垂直整合并自己构建这些模型,我们可以为客户提供更多杠杆。

也许如果我们谈谈预测,我们会谈到一些你提到的内容,例如我们在缩放定律中的位置,在未来几年你预计会有多少能力提升……

我会说我们已经走得很远了,我们开始进入曲线的平坦部分。我们肯定已经过了这样一个阶段:如果你只是与模型互动,你就能知道它有多聪明,比如那些基准测试,它们正在失去效用。因此,你需要做的是让专家在非常具体的领域(如物理、数学、化学、生物学)进行测量。

你需要让专家来评估这些模型的质量,因为在这个阶段,普通人无法分辨不同代之间的区别。是的,还有很多事情要做,但是这些改进将在非常专业的领域感受到,并对更多研究人员领域产生影响。我认为,对于企业以及他们想要自动化的常规任务或他们想要构建的工具来说,这项技术已经足够好,或者足够接近,只需进行少量定制即可实现目标。

所以,我们正处于这样一个阶段:在可以解决的问题类别方面,出现了一种新的突破,那就是推理。在线推理是这些模型一直缺少的东西。他们以前没有……内部独白。

真的,我并没有真正地思考他们自己,你只会问他们一个问题,然后期望他们立即回答这个问题。他们无法推理。他们无法失败,对吧?犯错,发现错误,纠正它,然后重试。

因此,我们现在有了在线推理模型这一事实,当然,Cohere 是第一个将其投入生产的,但 Cohere 已经研究它大约一年了。我认为这一类别非常有趣。你可以解决一组新的问题……它也改变了……改变了经济学。

所以以前,如果一个客户来找我说,我想要你的模型在 X 方面更好,或者我想要一个更聪明的模型,我会说,好吧,你知道,给我们六到十二个月。我们需要启动一个新的训练运行,训练更长时间,训练一个更大、更大的模型。这是……这是我们唯一可以提高产品性能的杠杆。

现在还有一个杠杆,那就是你可以向客户收取更多费用。你可以说,好吧,让我们花费两倍的……你知道……标记,或者花费两倍的时间进行推理时间计算,你就会得到一个更聪明的模型。所以这是一个更好的产品体验。

好的?你想要一个聪明的模型。你今天就可以拥有它。

你只需要为此付费。所以他们有这个选择。他们只需要等待六个月。同样,对于模型构建者来说,我不需要将我的超级计算机的大小加倍才能达到预期的智能水平。我可以只将客户支付的推理时间计算量加倍。我认为这是一个非常有趣的结构性变化,关于我们如何进入市场以及我们可以提供什么产品以及我们可以为客户提供什么。

我同意。我认为这……现在在生态系统中被低估了,对于所有类型的客户来说,它应该有多么吸引人,你可以从资本支出改进模型转向消费支出改进模型,对吧?而且这不像……你知道,这些是苹果和橙子……但是我认为你会看到人们会投入更多资金来解决问题,因为他们不必为训练运行而烦恼,并且不会像你描述的那样有延迟。

是的,人们还没有真正追踪推理时间计算对交付智能的影响。即使在芯片层面,也有很多后果,对吧?比如你应该构建什么样的芯片,你应该优先考虑数据中心建设什么……如果我们有一个新的场所,那就是推理时间计算,它不需要这种密集互连的超级计算机,拥有节点就可以了。你可以更本地化地做很多事情,而不是分布式。我认为这对整个链条都产生了巨大的影响,这是一个关于这些模型可以做什么以及如何做的新的范例。

你一直在回避这个问题,但因为你的平均客户并没有花太多时间考虑推理是什么,对吧?你能为人们提供什么直觉?比如,这种……

让我们更好地解决哪些类型的问题?是的,我认为任何多步骤问题……有一些适度的步骤问题你可以记住,这就是我们到目前为止一直在要求模型做的事情。比如解一个多项式,对吧?这应该被视为人类解决的多步骤问题。

我们不会只得到一个多项式然后就爆炸。有一些我们可以记住,对吧?但总的来说,你必须处理这些问题,将它们分解,解决较小的部分,然后组合成整体解决方案。

这就是我们一直在解锁的东西。我们非常喜欢,我们有链式思维,它……启用了它。但这有点像一种改造。

这有点像我们训练这些模型只是为了记住并输出准备好的答案,我们发现了一个很好的小技巧来诱导这种行为,这种行为会进行推理。我认为现在即将到来的是从头开始。正在构建和交付的下一代模型将从头开始将这种推理能力融入其中。

它一开始没有出现并不奇怪,因为我们一直在互联网上训练这些模型。互联网就像一组文档,这些文档是推理过程的输出,推理都被隐藏了,就像一个人写了一篇文章。你知道,他花了几个星期思考这件事,并进行了大量的思考,然后发布了最终产品,这就是你看到的。

其他一切都是隐含的、不可观察的……因此,第一代语言模型缺乏这种内部独白是有道理的。但现在我们正在做的是,我们正在使用人类数据和合成数据,明确地收集人们的思维过程。所以我们要求他们将其口语化,我们将其转录,然后我们将用它来训练模型,这是解决问题过程的一部分。

所以我对此非常兴奋。我认为现在它非常低效,而且非常脆弱,类似于早期版本的语言模型。但在未来两三年内,它将变得非常强大,并解锁一整套……

问题。你认为导致减速,你知道,达到你用缩放描述的曲线的平坦部分的基本驱动因素是什么?是因为……正如你所说,收集越来越多的专家数据和隐藏推理痕迹比仅仅获取互联网上的数据更难、更昂贵。是解决越来越复杂的问题的难度……还是计算的总体成本?你认为这种平坦化为什么会发生……

有人在画油画吗?他们会先涂底色,覆盖整个画布,然后他们会画出……你知道……山脉和树木的形状,随着你添加越来越多的细节,你会使用越来越细的笔触。

你需要更多笔触才能完成你想要完成的事情,而不是拿起一把大刷子,然后在画布上涂抹颜料。但是,当你开始变得越来越有针对性,越来越……越来越详细地描述你想要完成的事情时,它需要更精细的工具。这就是我们在语言模型中看到的。

我们能够很快地完成许多常见、简单、容易的任务。但是,当我们进入更具体、更敏感的领域(如科学、数学)时,我们开始看到改进的阻力。在某些地方,我们通过使用合成数据来解决这个问题,例如在代码和数学中。

这些都是答案非常容易验证的地方。你知道自己是对还是错,所以你可以生成大量合成数据,然后验证它是否正确,你知道它是正确的。好的,让我们在 IT 上进行训练,在其他需要测试和现实世界知识的领域,例如生物学、化学,创建这种数据存在更大的瓶颈。

你必须求助于那些在这个领域工作了几十年的专家,基本上是为了窃取他们的知识,但最终你会耗尽专家,耗尽数据,你就会到达人类对 X、Y、R、Z 的知识前沿。填补这幅画像中更精细的细节会越来越困难。我认为这是一个根本性的问题。

我认为没有任何捷径可以解决这个问题。你知道,在某种程度上,我们将不得不赋予这些模型运行自身实验的能力,以填补它们对感兴趣知识领域的空白,但我认为这还有很长的路要走。而且这很难扩展,这需要很多年才能做到。

我们会做到的。我们一定会做到。但对于我今天在 Cohere 关注的事情,我认为这项技术已经准备好用于许多生产应用了。因此,主要的重点是投入生产,并确保我们的经济能够尽快采用和整合这项技术,从而提高生产力。虽然关于……

你知道,为什么进展在放缓?我认为这应该很明显,对吧?就像模型变得如此优秀,它们正在达到人类知识的阈值,而这正是它们获得能力的地方。

你非常务实,并且知道如何利用我们已经拥有的能力,即使曲线趋于平缓,我们也会继续取得进展,并投入生产。我认为我知道答案,但你或我在这里对 AGI 的看法有多大不同,以及这对你来说有多重要?

AGI 对许多不同的人来说意味着很多事情。我认为我相信我们能够构建普遍智能的机器,当然,我们会做到这一点。但它已经……

我们多久才能……

已经在那里了。它不是一个 没有,它是二元的,不是离散的,它是连续的。我们正走在路上,我们已经走得很远了。

行业中其他地方有一些定义,例如,即使你拥有这个……连续函数,你也可以设置一个断点,例如,如果有一种智能可以取代任何数字领域的受过教育的成年专业人士。你的观点是没有真正重要的断点正在发生。

那种类似客观清单的东西,比如当你选中所有这些框后,你就得到了它,我认为你总是可以找到反例,比如,哦,它实际上并没有击败那边正在做这个……随机……事情的人。嗯,我认为它是……我认为它是连续的,而且我们已经走得很远了。但我真正不认同的 AGI 是超级智能的爆发,自我改进导致终结者消灭我们所有人,或者……

创造丰富……不清楚……是的,或者创造……对。

现在我认为我们将是创造丰富的人。我们不需要等待这个神出现,为我们做这件事。

让我们开始吧。用我们正在构建的技术来做这件事,你知道,我们不需要依赖它。我们可以靠自己。

我们会构建 AGI,如果你指的是非常有用、功能强大的技术,能够完成许多人类能够完成的事情,并灵活地应用于许多不同的领域。如果你指的是,你知道,我们会创造神吗?不会。

你认为这种意见分歧的驱动力是什么?

我不知道。我认为也许我更关注这项技术的实际难题,它在哪里失效,在哪里缓慢,在哪里我们开始看到事物停滞或放缓,而其他人可能更……也许他们更乐观。也许他们看到……他们看到曲线在增长,他们只是认为它会永远这样下去,它会继续任意增长,我不同意这一点。我认为存在摩擦点。确实存在进入它们的摩擦,例如,即使在理论上,你知道,神经网络是通用的逼近器,你可以学习任何东西,你都需要构建一个宇宙大小的狭窄网络,所以有一些根本性的障碍来达到人们推断出的极限,我认为这将限制这种技术的实际实现……形式。

在哪些领域你认为像我们今天拥有的 LLM 一样,并不适合预测?例如,我们能否从序列到序列模型中获得物理模拟?

我的意思是,可能吧,物理学就像一系列状态和……转移概率。所以我认为它很可能被序列建模很好地建模。但是否有一些领域不太适合……我确定,我确定对于某些事情存在更好的模型,更高效的模型,例如你。如果你放大到特定领域,你可以利用该领域的结构来消除 Transformer 的一些不必要的普遍性……这类架构……并获得更高效的模型,这绝对是当你使用它时……它不会……

听起来你认为它在核心上是……IKA 表示问题。

只是不会……世界中存在不可约简的事物,例如,有些事情你真的无法知道,而构建一个贝叶斯模型并不能帮助你了解这个真正随机的……不可观察的事物。因此,这些东西永远无法有效建模,除非我们学会如何观察它们。或者,我认为 Transformer 和这类模型能够做到的事情比人们给予的评价要多得多,它的架构非常通用。

许多事情都可以表达为一个序列,而这些模型只是序列到值的映射。因此,如果你可以将其表达为一个序列,Transformer 就能很好地捕捉其中的任何规律。但我确信有一些例子,我现在想不起来,其中序列建模非常低效。但你可以用序列来做,因为你可以将图表达为一个序列……但这只是错误的模型,如果你从……

不同的角度来处理它,你会节省大量的计算资源。好的,最后一个问题。你之前得出结论,扩展计算和推理时间……人们注意到了,但这并没有真正被计入价格。这有多大的变化?你认为市场现在还有什么没有定价的,Cohere 会考虑的?是的。

我认为存在这种模型商品化的想法。我不认为这是真的。我不认为模型实际上正在商品化。

我认为你看到的是价格战,所以你看到人们免费提供,亏本提供,以微薄的利润提供。所以他们看到价格下降了。他们认为价格下降意味着商品化。

我认为现实情况是,现在正在发生一场全面的技术革命。它将持续未来 10 到 15 年,这有点像……我们必须重新铺设地球上的每一条路。并且有四五家公司知道如何制造混凝土。

好的。也许今天,他们中的一些人免费赠送他们的混凝土。但随着时间的推移,只有极少数的参与者知道如何做这件事,而我们面前有一项巨大的工作,以及推动增长以显示投资回报的压力。

以亏损运营或免费赠送非常昂贵的技术,这是一种不稳定的现状。因此,市场的增长压力会将事物推向某个方向。而且你知道,两周前高品质 X 的价格……

这非常有趣。非常感谢你抽出时间来做这件事。

是的,我的压力很大,很有趣。很棒的节目。

在 Twitter 上关注我们 @NoPriorsPod。如果你想看到我们的脸,请订阅我们的 YouTube 频道。在 Apple Podcast、Spotify 或任何你收听节目的地方收听节目,这样你每周都会收到新的剧集,并在 no-priors.com 上注册电子邮件或查找每集的文字记录。