We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Remaking the UI for AI

2024/5/16

a16z Podcast

AI Deep Dive AI Chapters Transcript

People

Anjney Midha

Topics

Anjney Midha 认为，大型语言模型和生成模型的兴起，对硬件和界面提出了新的要求。当前的界面无法满足这些模型对新型输入和上下文的需求，这需要重新思考人机交互的方式。他指出，计算的瓶颈在于硅，但最终会有人找到方法制造出功能相同的替代品。英伟达在训练工作负载方面的优势可能是暂时的，因为推理层是一个更公平的竞争环境，许多令人兴奋的创新正在这里展开。他提出了一种理解未来硬件的方法，即从客户需求或计算机历史演进的角度出发。计算机历史可以分为推理和界面两个发展脉络，两者共同推动了计算革命。当前我们正处于推理和界面转变的交汇点。他认为，未来的AI界面将以语音和音频为主，视觉作为补充，并需要解决隐私问题。为了实现这一目标，需要在输入、推理和输出三个方面进行硬件创新，其中推理层（即“大脑”）的创新最为活跃，一些公司正在为特定模型定制芯片。他预测，未来的产品将是小型模型的组合，它们协同工作，效率更高。未来的训练将更多地关注在个人数据上的微调，而不是大型预训练模型。他还指出，人类通过类比进行推理的能力，在计算机设计中可能是一个盲点，目前Transformer架构的局限性，可能需要新的架构来实现更高级的推理能力。对替代架构的投资不足，可能是未来计算的一个盲点。他认为，最佳的商业模式应该是雇佣关系，而不是免费服务模式。

Deep Dive

Chapters

Anjney Midha discusses the current state of AI hardware, focusing on the dominance of Nvidia in training workloads and the potential for innovation at the inference layer, particularly for wearable devices.

Nvidia's strong hold on training workloads may be temporary due to supply chain issues.
Inference workloads are becoming more important and offer a more level playing field for innovation.
Wearable devices could become a natural part of everyday interactions with AI.

Shownotes Transcript

构建新形态的成本，市场简直疯狂。我们在大语言模型和生成模型方面取得了推理突破，而它们非常渴望当前一代界面无法提供的各种新型输入和上下文。计算的北极星一直是“桶”，就像史蒂夫·乔布斯的名言一样，成为心灵的自行车。

硬件的历史就是计算机的历史。这里的速度限制是硅。获取沙子，世界上有大量的沙子，最终其他人会想出如何制造出做同样事情的沙子。在过去的六十年里，我们已经适应了各种界面，但我们今天与计算机交互的方式实际上非常不自然。

大家好，欢迎回到Exigency播客。如果您是这里的常客，您可能已经了解人工智能主题的重要性。事实上，它非常重要，我们决定创建一个新的AI专用播客，这个播客的名字叫AI+a16z。我们没有咨询AI命名专家。

您将听到该播客早期的一集，由风险编辑德里克·卡尔与a16z普通合伙人安杰尼·米达进行对话，讨论一个非常重要的问题。问题是：如果我们甚至使用软件平台通过大型语言模型，我们是否也需要从头开始重新思考我们的硬件和界面？今天，他将探讨跨输入、推理和输出的数据需求，换句话说，UI是什么样的。

AI会是什么样子？它看起来像一部手机，还是完全不同的东西？我们能从技术出现之前的几千年人类行为中学到什么，这些知识实际上可能会告诉我们未来会发生什么？当然，现在有很多公司试图解决这个问题，但这次谈话可能会让我了解为什么没有人完全解决这个问题。

这一集直接来自我们新的AI+a16z播客。如果您喜欢这一集，请订阅以获取所有a16z最新的AI内容，包括围绕办公用品供应链、开源LLM和更多内容的剧集。当然，我们会在节目说明中包含链接。就这样，开始吧。

嗨，我是德里克·卡尔，您正在收听a16z AI播客，在这个播客中，我们将与内部专家团队以及在这个领域的尖端工作的创始人、工程师和研究人员一起深入探讨人工智能的方方面面。在本集中，我与a16z普通合伙人安杰尼·米达谈论了未来几年AI硬件的外观，以及为什么推理层还有如此多的创新有待发生。除此之外，他还解释了他如何看待可穿戴设备的演变，以利用传感器和工作负载的改进、专用芯片，以及苹果Vision Pro等大型公司技术的引入如何为初创公司奠定基础。因为他是在英伟达大型GTC活动之后录制的，就像我们之前与英伟达的对话一样，我们开始谈论训练工作负载与推理工作负载，以及英伟达如何主导前者。

提醒一下，请注意，此处的內容仅供参考；不应将其视为法律、商业、税务或投资建议，也不应将其用于评估任何投资或证券；并且不针对a16z基金的任何投资者或潜在投资者。有关更多详细信息，请访问a16z.com/disclosures。我最近看到，例如，奥巴马对AMD的支持。我认为我看到有人将英伟达比作早期网络时代的Sun Microsystems，这似乎是美好的愿望。我们的怀疑论者是否低估了英伟达的控制力？

有两种观点，一种是英伟达的强势地位是暂时的。他们的利润率被夸大了，因为过去24个月的供应链危机导致需求激增。但随着产品上市，其他人会赶上来。

而且你知道，基本上这些人会告诉你，好的，我会告诉你，这里的速度限制是硅。它是沙子，世界上有大量的沙子。最终，其他人会想出如何制造出做同样事情的沙子，大量的沙子。

我个人认为这种观点具有挑衅性，但过于简化，因为它没有对训练具有这些特殊需求的事实进行第一性原理分析，例如一个非常强大的软件驱动程序层，可以协调数千个芯片同时工作。我认为，在这场辩论中，我当然相信英伟达十年前开始投资的开发者体验现在正处于其复利的后期阶段。这真的很难撼动。

随着时间的推移，我们可能会看到利润率下降，因为预算正在从训练转向推理。我认为这实际上是许多令人兴奋的事情正在发生的地方，我们今天将花费大量时间讨论推理，因为现在正是时机。每次你有一台新电脑、一个新的软件基元时，它通常会导致新型工作负载，而现有基础设施难以跟上。

我认为推理工作负载，就像你提到的奥巴马的例子一样，是全新的计算机工作，因为我们以前从未见过。因此，这是一个更公平的竞争环境。我认为英伟达十年前不可能投资这种工作，因为它根本不存在，而训练从根本上来说，由于深度学习已经存在了这么长时间，它以某种形式存在了十年之久。

事实上，我认为现在是介绍我认为对未来硬件有用的思维模型的好时机。我发现有几种方法可以推断硬件。一种是从客户出发，这里的客户是谁？他们需要什么？痛点是什么？然后，另一种方法是根据历史进行推断，看看计算机的进步和演变情况。

我认为硬件的历史就是计算机的历史，对吧？在我看来，如果你看看过去大约60年的计算机，也就是现代计算，一种流行的推断方法通常是硬件与软件的匹配。但我认为还有另一种推断方法，我将全部归功于我们的一位创始人卡尔，他在Unc. Kar那里工作了很长时间，并且一直在思考如何向大量用户展示语言模型。

在很多人有机会尝试这些大型语言模型之前，他基本上认为计算有两条线。一个是推理或智能，另一个是界面。你可以回顾过去六年，基本上分解每一次主要的计算革命。

我们取得了计算推理部分或界面部分的一些根本性进展。如果你追溯到1958年的第一个神经网络，那时我们开始看到推理开始发生。然后，这将导致80年代的一些概率图模型，然后导致2000年代的GPU加速深度学习，然后导致2010年代后期的Transformer。

现在是下一阶段，大型Transformer，你可以说，这是一个谱系，即推理的谱系。同时，我们还有另一条计算线，即界面，对吧？你从命令行和键盘开始，当史蒂夫·乔布斯受到Xerox PARC的启发时，这将导致鼠标。

然后，这最终导致了带有触摸作为输入机制的移动界面。然后我认为问题是下一步是什么。我认为我们有充分的理由相信，下一个界面将是一个AI伴侣，文本、语音和视觉的某种组合，可以理解世界。这几乎是对硬件走向的更好预测，因为到目前为止，计算的历史表明，这两个谱系中的任何一个与客户产生共鸣的时刻最终都会主导未来10到15年的工作负载规模。我认为我们正处于推理和界面转变的中间阶段，这就是现在令人兴奋的地方，对吧？

看起来，如果你看看你解释的方式，我会说我们已经在这个阶段建立了相当完善的智能手机界面，它运行AI推理。像PR计算机一样，它们有推理芯片。但这些都是现在众所周知的创新。

新的东西似乎是在推理方面，例如基础模型和与模型交互的能力。所以，感谢推理，你是对的。这就是我们在推理方面所处的位置。所以现在硬件和界面的任务是向前迈进。

完全正确。我认为你基本上说的是，我们已经取得了推理突破，就像你说的那样，有了大型语言模型和生成模型，它们非常渴望当前一代界面无法提供的各种新型输入和上下文。我认为这就是我们看到人们第一次以以前不可能的方式思考界面或尝试新界面的地方，因为推理能力还不存在。

那么硬件是什么样的呢？所以，让我们谈谈界面，就我而言，我们对智能手机的界面似乎非常强大。我们已经有了语音识别一段时间了。我们已经在我们的家中或其他地方拥有了像亚马逊Echo这样的设备，我们可以与它们交谈，并且知道它们在云端某个地方运行某种模型。从我们今天拥有的似乎相当有能力的东西到你在解释的东西，即一个全新的东西，也许数据捕获作为主要功能是出发点，这种阶跃式改进或提升在哪里？

计算的北极星一直是“桶”，就像史蒂夫·乔布斯的名言一样，成为心灵的自行车，对吧？最终是将人类的思想转化为对世界的一系列行动，从而使人类能够以没有工具的杠杆就无法实现的方式完成他们想做的事情，对吧？因此，计算机在其最宏伟、最戏剧性的表达中。

是我们思考和行动的工具，它使我们能够完成没有这些工具就无法完成的事情。因此，如果你问，为什么计算机今天无法帮助我们实现这个北极星目标？有很多原因。

但我认为你从列表的顶部开始，你从第一个开始，那就是它们在推断我们对世界的意图方面做得相当糟糕。人类。在过去的六十年里，我们已经适应了各种界面，但我们今天与计算机交互的方式实际上非常不自然，主要是因为我们正在弥补计算机缺乏理解我们的意图并将意图转化为主动行动的能力。

计算中有一种范式，即声明式与命令式，对吧？其思想是，对于命令式，你对你想让计算机做什么非常明确。

你说，打开这个文件，然后，你知道，这是一组我想让你执行的指令，几乎就像你在指导一条狗一样，对吧？声明式是你基本上声明你心中有一个目标，就像你与成年人互动并说，“嘿，请帮我预订一张机票”或其他什么，你的目标是什么？然后它会推断如何做到这一点，对吧？人类在这方面非常出色。

而计算机在将思想转化为行动方面还差得很远。因此，我认为最大的限制是计算机还不够聪明，无法将思想转化为行动。因此，如果你问，那里的最大障碍是什么？如果通用模型实际上能够进行推理，那么为什么我们没有看到计算机跨越推理这一步，即智能这一步？我认为有两个主要问题。

首先，存在一个根本性的上下文问题。大型语言模型的工作方式是，它们只和你提供的提示一样好。它们只和你问的问题一样好。

这就是为什么我使用了ChatGPT，它本质上只是一个略微不同的上下文形式因素，来向GPT-3提问，它围绕着GPT-3和AGI-5，在ChatGPT出现之前的八九个月里，它一直是一个原始的下一个标记预测端点。但没有人真正用它做任何有趣的事情。然后，当他们将其打包成一个聊天界面时，其余的就是历史了。事实证明，仅仅允许人类提示模型并与你交谈，并以有用的方式提供上下文，就会极大地改变你可以从这些模型中获得的价值。

虽然我们已经看到了这对纯文本生成有多么有价值，但当涉及到在世界上采取行动和做某事时，预测你想要采取的下一个行动并为你采取该行动，这种界面根本无法看到你所看到的东西，听到你听到的东西，听到房间里其他人听到的东西，看到你的眼睛正在追踪的地方，并推断所有关于人类想要实现的目标的上下文，然后主动为你做到这一点。因为现在，我们基本上是在强迫这些模型试图通过一根稻草来理解我们，对吧？他们所能获得的只是我们通过文本聊天输入的现实的微小表示。

但我们丢失了关于现实的所有其他语境。因此存在一个界面问题，即目前没有任何界面能够无缝地捕捉你正在交互的整个世界，然后将其转化为这些通用模型的提示。现在，解决方案空间更容易思考，因为你可以争辩说，智能手机可能是我们拥有的传感器密度最高的传感器阵列，对吧？

我这里就有一个，它有三个后置摄像头，一个前置摄像头，一个深度传感器，还有RGB传感器。它有加速计、陀螺仪和磁力计。它有GPS，知道我在哪里。它还有麦克风。你可以看到我看到的东西。

那么你可能会说，你在说什么？数百万人现在口袋里都有一个完整的传感器套件。问题是，当这些传感器都放在你的口袋里，无法无缝地捕捉世界并主动融入你的日常生活时，它作为界面就毫无用处。

你需要一个能够提供足够的关于用户所处世界的持续语境的界面，以便推理层能够开始对你想做什么做出有用的预测。我认为我们还没有找到这种合适的形态因素，但语音和视觉已经很接近了。

我认为这将成为多模态模型中非常重要的一部分。我认为在边缘计算方面，通过精确输入（例如眼动追踪）可以获得巨大的收益。我不知道你是否尝试过苹果Vision Pro，但Vision Pro交互系统的全部前提是，你用眼睛代替鼠标。它非常擅长将你的视线引导到你大脑想要去的地方，实际上这是人体最快的反应，它遵循思想。因此，如果计算机界面可以通过你的眼睛推断出你将要做什么，那么我认为你突然开始减少计算机理解你想要做什么和实际执行之间的延迟时间。而人机界面的历史恰恰说明了如何通过减少看似微不足道的延迟量来实现用户采用率的巨大变化。

那是什么样的？因为现在有一些公司正在尝试使用吊坠、别针等等。但是，你也会看到，对于这些可穿戴式耳机，你可能需要连接线，或者你必须戴着这个巨大的东西，因为这意味着你必须将传感器和功能强大的芯片集成到设备本身。那么从硬件的角度来看，我们实际上需要达到什么程度呢？

这是一个很好的切入点，对吧？因为我认为你可以将硬件分解成三个主要部分。一是你需要什么输入？它对你的生活的完整语境窗口是什么？所以这只是一个需要准确感知世界的硬件集合，这是一个感知问题。第二个是实际处理所有这些输入并理解它的硬件。

然后是最后一步，输出，对吧？你如何将推理步骤的结果传达给人类，并以足够集成、无缝的循环方式进行，以便你可以像与人交谈一样与你的计算机交谈，就像你看到程序员处于心流状态时一样，他们正在他们的IDE中编程，但他们犯了一个语法错误，IDE会智能地说，“这是你的语法错误”，程序员然后将其集成到他们的工作流程中。我是一个糟糕的程序员，所以我一生中都有幸与一些优秀的程序员合作。

你可以看出他们处于心流状态时，他们和他们的电脑几乎融为一体。这主要是因为我们在如何让计算机反馈给你、如何进行推理方面做出了许多非常好的决定。总的来说。

你可以将硬件需求视为三个步骤，三个部分：输入、推理和输出，类比于人体解剖学。眼睛、耳朵和手指感知世界，这是感知步骤；然后你需要一个大脑来理解所有这些输入；最终，就像我们有四肢一样，你需要一些东西来操纵你周围的环境并采取行动。

传统上，大多数创新都发生在机器人技术领域。这曾经是计算机科学的一个封闭的学科，用于研究如何将这三件事结合起来，使其易于研究。机器人研究传统上是在工业实验室进行的，在那里它们不必与人类进行太多互动，除了在仓库等受限环境中。

今天，我们看到的是一种戏剧性的转变，通用模型的突破导致了机器人技术领域以外的大量研究，在消费领域。形态因素从人们衣领上的吊坠和别针到无缝融入日常生活的眼镜，看起来与你平时戴的处方眼镜没有什么不同。我们看到一些公司正在考虑更具侵入性的植入式设备，它可能是一个直接植入大脑的芯片。

如果你问我，我们看到哪些东西从科学转向工程，哪些东西可能最终会出现在人们手中，普通人的手中。对我来说，大多数创新都发生在中间步骤，即大脑步骤，也就是今天的推理步骤。有些公司正在制造专门为特定模型设计的芯片，他们实际上是在烧录权重。

我第一次听到这个想法是从David Holz那里听到的，他是Midjourney的创始人，我早期就认识他。他的直觉是，扩散模型在图像生成方面非常有效，最终我们将只有少数几个模型来处理大部分图像生成的推理工作负载。

在那时，当你拥有足够规模和数量的特定类型的推理时，大脑只需要执行一种类型的任务，你可以制作一个专门执行这种任务的专用芯片，对吧？你将模型权重烧录到芯片中，这会大大降低大脑可以推理的事物的灵活性。你基本上将一个大脑变成了一个小大脑，但你可以获得数量级的速度提升，一百倍、一百五十倍、两百倍。

这通常也是计算的历史。当某种类型的任务工作负载达到足够的成熟度时，芯片行业通常会为你的计算器、你的冰箱等等制作一个专用芯片。因此，我认为我们即将开始在生成式建模中看到这种情况，在输入和输出方面，对于初创公司来说，这是一个非常难以突破的地方，因为将新的形态因素推向市场所需的成本非常高昂。

我认为我们看到最接近成功的公司是Oculus，它将第一个真正面向大众市场的虚拟现实形态因素推向市场，他们的策略是利用在过去十年中发展起来的PC和智能手机供应链。这导致许多单个组件的成本大幅下降，并在中国形成了巨大的制造生态系统，他们能够从中采购现成的组件。我记得Oculus Rift的屏幕实际上是一个三星或LG智能手机屏幕，如果你问创始人，我想创始人有一个故事，我只能转述一下，但显示器制造商起初不相信你可以以虚拟现实所需的快速刷新率刷新像素。

他们实际上入侵了驱动程序，并说，“不，你看，我们可以做到。”因此，我认为我们在硬件方面需要注意的是，是否存在初创公司可以围绕其进行创新的低成本形态因素，因为存在一个现有的供应链，苹果或谷歌等巨头公司在过去十年中已经对其进行了补贴和扩展。这就是苹果Vision Pro如此令人兴奋的原因，当苹果进入游戏时，就会产生第二和第三种效应，例如新的传感器供应链出现，例如深度传感器和用于混合现实显示器的光场显示器，这使得初创公司可以尝试新的形态因素。

任何一家公司如果能够以足够高的吞吐量捕捉视觉信息，让AI用户能够提示模型并说“这就是我正在看的东西”，并且能够听到用户正在听的内容，因为音频是我们日常生活中驱动决策的大量语境，这将是决定成败的关键。因此，我认为任何一家能够以非常易于融入日常生活的方式结合音频、视频和身体感知以及输出的公司，这样你就无需说“嘿Siri”、“嘿Alexa”之类的唤醒词，因为这种唤醒词方法在规模上行不通。它对我们的自然对话具有破坏性。因此，我认为最终的形态因素将是自然的，它将以语音和音频为主，并辅以视觉增强。我认为推理层。

是的，它看起来确实具有颠覆性，但你感觉它在与周围世界互动方面并不自然，就像谷歌眼镜问世时一样。我认为那很酷，但我认为那是一个相当激进的想法，我同意你的看法。但它看起来并不自然。我认为在脸上安装摄像头看起来并不自然。也许，也许这需要更多先例，当时的情况就是这样。

但我对界面设计通常持谨慎态度，那就是，如果没有好的形态因素来代表你正在构建的设备，这可以追溯到几百年前，那么改变人类行为以适应新的范式就非常困难。可以说，智能手机并不是人类的新界面。多年来，我们习惯于将东西放在口袋里，比如钱包或笔记本。

我们习惯于点击和与笔记本互动，无论是用铅笔等等。我认为那里的创新，当然，是史蒂夫·乔布斯发现触控笔非常自然，即使它们看起来像人类几千年来一直在使用的棍棒和铅笔。但事实证明，在触控笔之前甚至还有人的手指。

因此，我认为谷歌眼镜完全违反了所有社会规范，对吧？在你的眼睛前面漂浮着一个显示屏和一个摄像头，这根本不自然。这就是为什么我认为如果有人正在构建，如果有一家公司正在尝试可穿戴设备，它可以感知世界，如果它记录了人类，它将不会被广泛采用，因为这从根本上来说，这不是一种自然的习惯。

所以这是一个确认。这是一个信任和隐私问题，你必须找到一种方法来捕捉关于世界的视觉语境。你需要一副眼镜，它具有眼动追踪和视觉传感器，可以告诉设备你看到了什么，但不会进行记录。

我认为这将是一个突破。我认为一些大型硬件制造商今天犯的一个大错误是，他们急于将记录眼镜推向市场，而人们还没有准备好信任这些设备，还没有将它们融入他们的生活中。

你认为需要什么才能真正突破这种隐私或安全问题，或者说隐私问题，让人们接受这些技术？

我认为苹果是一个很好的案例研究。技术解决方案和消费者或用户承诺之间存在持续的对话，苹果基本上表示，我们将基本上不会赋予自己查看你设备上某些类型数据的能力。因此，苹果在iPhone上有一个安全的设备端隔离区。

大量的智能手机相机处理实际上是在设备上进行的。实际上，苹果原生计算机视觉处理几乎100%都在你的照片设备上进行，实际上从未离开过设备。当然，我们还提供了云服务，你可以将你的东西备份到iCloud进行存储。

但是，当涉及到原始推理，比如关于你的数据的智能时，这一切都在本地发生。因此，当你早些时候提到Ollama时，我认为我们看到这么多开发者涌向Ollama的原因是，消费者对以私密方式与语言模型交互的需求很大。这意味着他们必须弄清楚如何让模型在本地运行，而无需用户的上下文和数据离开用户的设备。

我认为这将导致新型芯片的复兴，这些芯片能够处理设备上大量的推理工作负载。我们还没有看到这些被解锁。但好消息是，开源模型在解锁效率方面非常出色。

开源语言模型生态系统非常活跃，当新的模型出现时，就会出现混合专家。几个月前，一个新的开源模型出现后，有人在不到24小时内就对其进行了量化，并添加了GGML支持，以便在一周内在本地运行。

即使最初，就像开箱即用一样，该模型实际上很难在低于两块20系显卡的任何设备上运行，我不得不让它在我的两块家用游戏显卡上运行，然后在我的办公桌旁放一台散热器。但你知道，到今天，你可以在更小的单芯片上运行一个Mixtral模型，这纯粹是因为软件的改进。你会从开源生态系统中获得一些收益，然后允许使用案例得到充分的解决，然后硬件人员会说，哦，让我们为这些工作负载制作特殊的芯片。

这就是正在发生的事情。我认为有人正在将扩散模型芯片和Transformer模型芯片推向市场，这些芯片擅长于这项工作，这样当创业公司说你可以信任我们时，用户就知道他们不必这样做。这是设计使然，对吧？所以，我认为设计上的“不做恶”会导致“能做恶”。我认为这是你能对你客户做出的最强有力的承诺。

我想，当她实际上有所帮助时，这不会造成伤害，这将是一个更具建设性的说法，即当公司出现并且没有，比如说，一个依赖于向你展示广告或依赖于以某种不公平的方式使用你的个人数据的遗留业务来支持时，这可能会有所帮助。

是的。所以，这是一个好问题，即你能否信任一个由你以外的人付费的AI助手？我相信，就其目前的形态而言，广告对于人们信任的、用于日常活动的大多数智能界面来说，几乎是死胎。知道信任一个模型进行下一个标记预测是一回事，你要求下一个词，你应该使用一个N。

S、A，当我们转向下一个动作预测时，你赋予它代表你在世界上行动的权力，那么你和正在为你做事的主体之间的根本错位在于，如果该主体没有得到你的报酬，那么你可能不会完全信任它。现在我认为可能有几种广告形式是有效的，它们不像今天的谷歌广告格式。我们就像你为七个或八个好链接之前的投标链接一样。

我认为我们实际上看到谷歌有点在为此苦苦挣扎。但你是对的。我认为最符合道德的商业模式就像你雇佣一个人来帮助你完成一项任务一样，作为雇员，你正在雇佣一个代理，你正在雇佣一台电脑，你正在为它付费，而你实际上是雇主。

我认为，当谈到下一波的计算机时，不要把它们当成工具，虽然它们对你的生活所能产生的最终影响是工具的影响，但商业模式的关系应该更像雇员与雇主的关系，而不是我认为的仅仅是第三方，即其他人补贴免费使用。经典的“如果你不是付费用户，你就是产品”我认为在这里存在。而且，当你信任它为你做事时，失败模式会更加复杂。

我现在发现很有趣的是，当你看到ChatGPT的订阅、任何生成模型服务的订阅（Perplexity已被重新命名）时，人们愿意为搜索付费。现在人们更愿意为这项服务付费。也许这表明，是的，这正是人们将来愿意为之付费的东西。就像我们已经跨越了那座桥梁，正如你所说，免费的东西，真正有价值的东西，因为你可以进来并说，这是我们白天做的事情，我们赚钱，你可以接受或拒绝它。但是，不，你获得的服务与你支付的价格相符。

是的，我认为技术的长期发展表明，随着时间的推移，计算机的边际成本通常趋于零，对吧？我们现在正处于一个非常奇怪的阶段，因为通用模型是如此的新，我们还没有看到摩尔定律应该带来的成本急剧下降。因此，结果是，世界上最好的通用模型服务是付费的。

这是因为运行推理很昂贵，对吧？但令人疯狂的是，正如你所说，人们愿意为此付费。这就是通用模型在此时解锁的经济价值的多少。

我个人以顾问、投资者或运营商的身份参与了至少五家生成模型公司，这些公司在其上市后的前十二个月中，订阅收入超过了三千万到五千万美元。而这一切都发生在过去两年里，对吧？这太疯狂了。我认为这是因为，当模型真正完成你认为自己无法完成的任务时，无论是用Midjourney生成图像，还是从Perplexity获得一个你独自完成需要花费数小时才能获得的答案，或者使用ElevenLabs从你的文本中生成你声音的播客，这些都是你以前必须雇人才能完成的事情。

事实证明，当它被捆绑成计算并提供，你可以全天候调用它，每月收取20美元，这甚至不是对客户的一个苛刻的要求，因为可比的是，实际上是雇佣一个人为你做这项测试，这笔费用的范围从最低工资每小时到一些你几乎找不到能按时完成你想要测试的人。所以我不认为，我想明确一点，我不认为这些模型正在取代人类。我认为它们正在填补经济需求中的空白，这些需求以前没有得到满足，它们正在创造新的类别，而如今每月20美元的订阅并不是一个苛刻的要求，但随着时间的推移，我认为这些价格将会下降，因为计算机的边际成本将趋于零。

所以我们一开始谈论的是GPU和训练方面。如果AI的UI主要成为设备上的模型日常捕获，那么训练过程和系统会是什么样的？然后是模型构建过程，我们现在正在生成什么，我知道量化谷是一个日期。

是的。所以，我认为大约24到36个月前有一段时间，每个人都认为，当然，越大越好。模型越大，效果就越好。

规模就是一切，我们将拥有GPT-10，这是一个巨大的200万参数模型，它将是一个巨大的上帝。产品应该只是在这个模型之上越来越复杂。而现实情况并非如此。

相反，正在发生的是，最有用的产品是不同模型的组合。来自伯克利大学的Sahil A.最近发表了一篇关于此的优秀论文，称之为复合系统。他们对当今使用生成模型的最常用产品进行了相当系统的研究。

事实证明，它们不是单一的整体模型。这些复合系统是不同模型协同工作的组合。所以我非常相信，未来的产品将是小型模型的集群，它们协同工作，比一个大型的超级大脑更便宜、更快、更高效地解决任务。

然后，当这些模型团队遇到无法自行解决的任务时，它们将调用云中的更大模型，然后要求该模型解决可能是一个多步骤的问题。有时，当你需要发明相对论时，你确实需要向爱因斯坦寻求帮助。但是，你日常生活中大多数事情，你不需要我帮你。

相反，我想要的是一个非常棒、高效的专家团队，他们紧密合作，就像公司一起工作一样。所以我看到未来每个人都将拥有一个个人团队，它像公司服务客户一样为我们服务。

我认为，随着这些推理工作负载将成为快速处理任务的组合，然后将它们无法自行解决的任务卸载到越来越大的云托管推理工作负载中，这对于训练意味着什么？实际上，越来越大的训练运行可能并不那么重要。在我们的日常生活中？真正重要的可能是训练和微调模型，基于个人的数据进行基础模型训练。

字节跳动（制作TikTok的公司）取得的最大突破之一，就在于对算法的个性化程度非常高，以至于在某人打开TikTok的三次滑动之内，他们就知道德里克接下来真正想看什么。幕后的概念基本上是每个人的个人嵌入，对吧？就像每个消费者都有一个个人嵌入，它如此深入地了解他们的偏好，以至于你能够为他们提供他们接下来想要的东西，无论是搜索他们想去哪家餐馆，还是只是为你采取行动，比如为你叫一辆出租车，如果这就是你需要的。

我认为在未来，许多目前发生在模型开发预训练阶段的训练，将开始进入后训练阶段，目前称为微调或定制，对吧？一旦你拥有一个足够好的基础模型来完成大多数任务，那么你就可以开始根据个人的需求进行微调。因此，你不需要一个巨大的模型来不断推理每个用户。你实际上只需要一个足够好的基础模型，然后它可以专门学习关于你的知识。这似乎发生在后训练步骤中。

我们似乎在预测未来某些事情时总是很糟糕。我认为大多数人都会跳到，如果我无法预测互联网或智能手机，这可能是最大的进步，我们实际上……我可以问你，你知道，让自己也犯同样的错误。当你思考AI的发展方式时，你认为我们在哪些方面可能遗漏了一些改进的领域？我们在目前所做的事情上是否有盲点，这可能会限制我们开发这些……

未来发展？人类非常擅长通过类比进行推理，对吧？这很可能是因为数百万年的进化告诉我们，模式匹配是一项非常重要的生存技能。

如果你的祖先以前见过狮子，并将狮子与危险联系起来，那么下次你看到看起来像狮子的东西时，你可能应该像你的大脑、你的祖先在数百万年中所学的那样来推理它。我认为，虽然这在日常生活中对我们很有帮助，但在计算中却对我们非常不利，因为我认为我们一直在寻找生物隐喻来指导计算机设计。

很长一段时间以来，人工智能处于一条奇怪的研究道路上，大多数人工智能研究界都认为，解锁某种通用智能的关键在于，你必须首先弄清楚大脑是如何工作的，人类大脑是如何工作的，然后你才能在硅片中复制它，对吧？所以，就像几十年来，在许多DARPA、国防部和大学资助的实验室中，这是一种神经科学优先的方法来发明计算机，事实证明这主要是一种干扰。事实证明，仅仅预测模型应该说的下一个标记或下一个词，是一种非常有效的方法来处理智能和设计计算机，而不是让计算机像人类一样学习。

我要说的是，现在正在发生的是，由于Transformer在它们所做的事情上非常有效，大多数主要的工业实验室都加倍投入这种架构。目前还不清楚这是否会导致一种本质上不受约束的多步推理，对吧？目前还不清楚目前的架构是否能让我们达到最终目标，即每个人对最终目标都有明确的定义。

但假设最终目标是一种能够完成我们人类几乎所有愿望的计算机，它能消除我们生活中的所有繁琐事务，让我们成为思想的终极自行车。忘记自行车吧，假设我们想要计算机成为思想的星际旅行。目前这些模型的架构是否能够实现这一点还不清楚。

但由于它们运行良好，大部分研究资金都将用于优化当前的架构。这是一个盲点，因为我们实际上可能需要一种全新的架构来解锁思想的星际旅行。虽然有一些有前景的初创公司正在尝试这样做，但这是一场非常资本密集型的游戏。

这不是胆小者所能胜任的。因此，我认为，随着行业达到规模定律不再成立的点，我们目前的架构实际上达到了平稳期。然后我们又回到了过去三十年中人工智能经历的几次寒冬的那种放缓，其中许多损失曲线或模型预测现实的能力基本上都遇到了瓶颈。

它们一开始非常有前景，然后就遇到了瓶颈。到目前为止，迹象表明这种情况并没有发生。但如果未来计算中存在一个盲点，那就是目前的架构是不够的，而且我们对替代方案的投资不足，无法超越它们。

现在我很乐观，但这一次，来自各方的足够兴奋和生态系统投票，从哈佛大学的计算层提供商（如视频）、云提供商和初创公司，最终到像我们这样的投资者，都对纽约的ks感到非常兴奋。所以，你知道，有些人正在思考和试验那些能够解锁新界面的东西，解锁下一阶段的计算。是的，这就是我们来资助的。我只是希望有更多的人从事这方面的工作。

感谢大家的收听。我认为这是一个非常有见地的讨论，我希望你们也是这么认为的。我们才刚刚开始热身。我们很快就会有更多关于aisou的内容。但与此同时，请随意评价节目，让我们知道你目前的看法。

Remaking the UI for AI 40:05 Share

a16z Podcast

Deep Dive

Shownotes Transcript

Remaking the UI for AI