We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Distilling Lessons from AI in 2024

2024/12/26

Hallway Chat

AI Deep Dive AI Chapters Transcript

People

Fraser

Nabeel

Topics

Fraser: 我认为2024年AI领域最大的收获是AI工作流程界面的清晰化。它包含三个面板：上下文面板、聊天窗口和模型渲染结果面板。这种三面板设计现在已经成为主流，并在ChatGPT、Cursor、Windsurf和Notebook LM等产品中得到应用。此外，邮件和信息中的AI摘要功能虽然好用，但也存在一些局限性，例如在处理少量文本时效果不佳。我认为Google Gemini的Deep Research工具虽然展现了未来研究工具的潜力，但目前还不是一个成熟的产品，其输出结果过于技术化，缺乏人性化的表达，界面设计也有待改进。总的来说，2024年AI产品在功能和界面方面都有了显著的改进，但仍需进一步迭代才能更好地满足用户需求。 Nabeel: 我认为2023年大型公司纷纷发布AI产品，但这些产品的市场渗透率并不理想。2023年还出现了一些‘准产品’，经过一年多的发展，这些产品在2024年才真正实现产品化，例如基于agent的推理模型。 Google Gemini的Deep Research工具是一个很有潜力的产品，它能够进行深度网络搜索并整合信息，但其输出结果的格式和用户交互方式有待改进。在对2024年Hallway Chat播客内容进行总结时，我发现Claude模型的表现最佳，其总结准确、深入，并能抓住关键信息。而ChatGPT和O1模型的总结则过于笼统或缺乏深度。我认为2024年的关键词是‘品味’，AI产品的成功不仅取决于技术，更取决于用户体验和产品设计。在数据驱动时代，难以量化的产品特性更具竞争优势。桌面实时流媒体技术和O1模型展现了巨大的潜力，但目前仍处于早期阶段，需要进一步迭代才能成为成熟的产品。O1模型更具有真实性和主见性，这与其他过于讨好的模型形成对比。 WebSim工具展现了软件自我表达的潜力，虽然实用性有限，但具有启发意义。许多AI产品并非全新的发明，而是对现有产品的技术框架进行重新构建。 AI时代的信息获取方式需要从‘大众智慧’转向‘专家智慧’，但目前这种转变的方式不够优雅和可持续。总的来说，2024年AI产品发展迅速，但仍有很多挑战需要克服，例如如何激励用户参与信息生成，如何改进模型的语气和表达，如何设计更人性化的用户界面等。

Deep Dive

Chapters

This chapter reflects on the AI product releases of 2024, analyzing whether they lived up to the hype and identifying trends such as the rise of agentic AI and the evolution of AI workflow interfaces. The discussion also includes an evaluation of Google Gemini's Deep Research tool and the role of 'taste' in creating successful AI products.

AI workflow interfaces came into focus in 2024, characterized by a three-panel design (context, chat, artifact).
Agentic AI, initially slow to develop, saw productization in 2024.
Google Gemini's Deep Research tool offered a glimpse into the future of research synthesis but needed product iteration.

Shownotes Transcript

我认为我今年最大的收获是，AI 工作流程界面终于清晰起来。对我来说，这是一个三面板界面，其中有一个上下文 Dropbox

你可以在这里使用 ChatGPT、Claude 和其他工具，你可以导入 Word 文档，可以连接到 Google Drive，等等。这就是我获取上下文与模型对话的地方。然后是聊天窗口本身，这仍然是我与该模型交互的方式的界面。然后是模板、平板电脑或游乐空间、云工件区域，模型现在正在为你渲染一些东西。

我最喜欢的功能，可能是 2024 年我最喜欢的 AI 功能之一，是邮件和消息中的摘要功能。它太棒了。我不知道。

我不知道，老兄。就像，我明白了。这太糟糕了。我不同意。我表示尊重地不同意。我确实使用了消息摘要功能。我发现它并不出色。它完美地符合字符数量，并让你了解这些电子邮件中讨论的内容。它很不错，你看着我像个疯子一样。

大家好，我是 Nabeel。欢迎来到 Hallway Chat。欢迎来到 Hallway Chat。我是 Fraser。欢迎回来。如果有什么，这是第二次录制，因为我们忘记了点击录制，并进行了五分钟精彩的讨论，我们现在将尝试即兴重放，因为，正如你所知，这些并不是地球上最具脚本化的内容。

现在是年底了。我们想回顾一下 AI 领域疯狂的发布月，来自许多不同的参与者，并试图弄清楚如何理解它，这也许是我们今天想要讨论内容的总结。这样公平吗？我会把它提升一个层次。你知道，当我们谈论这件事时，12 月的发布很有趣。在过去的几周里，出现了令人难以置信的大量内容

我认为我更感兴趣的是减少每周的热门话题，因为我们俩都不想把这变成我们在 Zoom 上进行对话并讨论头条新闻的情况。对。这是新闻。这是我们的感受。我认为这是一个回顾 2024 年的好机会。也许本着集体学习的精神，我们可以尝试，你知道，就像……

今年 AI 产品是如何演变的，我们从中获得了哪些经验教训，也许我们可以把它们写在便利贴上，贴在我们旁边的墙上，以便我们在思考明年要做什么时参考？听起来不错。我从回顾 23 年开始。所以我与 ChatGPT、Claude、Gemini 和

你知道，所有模型。我觉得我身边总是有五个治疗师给我提供相互矛盾的信息。我问他们 23 年 AI 领域发生了什么，以此来思考我们一直以来的轨迹。我经常忘记这一切变化得多么快。

显然，在 2023 年，一件大事是 Sam Altman 在 23 年 12 月被短暂解雇了 OpenAI。但除此之外，23 年回顾起来，感觉像是所有大公司都发布了一些东西的那一年。所以那是……

Adobe Firefly、Canva Create、Spotify DJ、Bard、Snapchat AI，就像字面意思一样，大公司都加入了聊天。他们都带着一些产品来了，正如几周前我们谈到的那样，如果你现在回顾一下那些发布，

我认为每个人都害怕现有公司会获胜。如果你快进一年，我想象大多数团队内部，我们也听到了一些这样的消息，都对这些产品的渗透率感到失望。它并没有真正奏效。然后

我注意到当我浏览这些内容时，第二件事是有一些东西“进入”市场，但实际上还不是产品。我们对未来有了一点了解，但这需要时间。那就是代理技术的夏天就是一个很好的例子。我们看到了一些非常早期的语音技术。然后，如果你快进一年，我认为那时你会得到，

你知道，现在有了 O1 正在做的一些事情的代理推理。Cognition 和 Encoding 等公司也有一些类似的东西，你看到很多像真正看到代理工作实际执行并做非常有趣的事情。并非所有产品类别和所有垂直领域都是如此，但感觉它终于实现了产品化。让我们提醒一下，这花了一年时间，对吧？一年，一年半。是的。是的。太疯狂了。这并不奇怪，对吧？就像

那个夏天，模型比今天的模型早了好几代。支持这些东西的工具还没有真正为你要做的事情而构建。我们还没有去探索表面来弄清楚

哪些用例有效，哪些用例无效。我们在所有这三个方面都取得了巨大的进展。因此，考虑到这一点，你认为 24 年推出的哪些东西是你认为明年可能会成为优秀产品但可能还不够的产品的预兆？

我长时间地玩弄了深度研究。我不知道该如何形容它。如果你试图描述它如何融入他们的产品，好吧，我会迷路的。它来自 Google。我认为它来自 Gemini 团队。我认为这只是一个经过训练可以进行广泛研究的全新模型。

网络研究，并且在 Gemini.Google.com 中有一个 UI。我认为这允许你使用它。我认为因为它很难找到。是的。我认为我前几天不得不向你寻求帮助才能找到它，而我之前已经找到过一次了。是的。实际上，你必须访问 Gemini.Google。然后我认为你必须从看起来像 Gemini 徽标的下拉菜单中切换到 Gemini 深度研究 1.5 模型或类似的东西。

这无疑是未来的一瞥。它不一定是今天的产品，但我猜想在 6 到 12 个月内，将会有许多不同的产品体验能够提供好处

这种价值。那么它是什么呢？这个名字很直白。它是深度研究。你进行搜索，它会梳理网络。在某些情况下，它会找到大约 86 个不同的来源。然后它会根据你提出的问题来综合这些来源。然后它会生成，我不知道，像一份长报告。这么长，以至于顶级功能之一是在 Google Docs 中打开它，以便你拥有传统的阅读和编辑体验。从研究的角度来看，它

很棒，对吧？就像它分解了它必须去网络搜索的调查思路，然后它找到了所有这些来源。在此过程中，实际上，产品体验非常好。就像它说，这是我的计划。你同意吗？你想编辑它吗？你想摆弄它吗？计划部分是

从 23 年到 24 年产品飞跃的完美例子。没有产品经理会在 23 年推出它，但我们正处于这种“代理展示你的工作”的 24 年。因此，当然它会向你展示计划，然后给你一个机会去编辑。这是一个非常好的观点。

没错。然后，你知道，过去一段时间另一个主题是，它是一个处理以分钟或几十分钟为单位的延迟的 UI，而不是以数百毫秒为单位，因为它实际上正在代表你工作。然后它返回并给你报告。感觉我看到的是非常引人注目的研究，围绕它有一个相当简单的 UI。感觉我们主要关注的是

Gemini 团队的有趣研究，它将在模型层得到改进。一年或一年半后，许多人将在产品中拥有这些真正彻底、费力的研究和综合流程。

但感觉它今天还不存在。你知道它让我感觉像什么吗？最近，当你谈论 Notebook LM 和播客功能时，你说它是如何工作的，因为他们在模型本身以及它如何生成音频方面做出了很多出色的产品决策。就像有两个主持人有一些互动，并且有，你知道，举止。它缺少这一点。感觉很冷淡和技术性。感觉就像，我不知道，感觉就像一个 LLM 写了一份非常基本的脚本

关于我提出的问题的技术报告。总的来说，我认为这是我对 Gemini 的最大问题。首先，我认为刚刚发布并更新的 Gemini 模型……

无疑性能非常好。就像我非常感谢 Google 在某种程度上，你知道，现在这个领域有很多关于 Google 强势回归的头条新闻。我认为所有这些都是公平的，特别是对于 API 工作。他们仍然没有掌握语气，对吧？语气有一种像 2022 年、2023 年耐克的感觉，在这种情况下几乎是防腐的，几乎是分级的语气。嗯，

这很不幸。Claude 显然，我认为，在这方面是最好的。但即使是 ChatGPT 在过去一年中也变得，你可以感觉到，它在这方面越来越好。它还没有完全到位，但显然有人在那里投入了一些时间和精力来努力做到这一点。而 Gemini 在这方面似乎远远落后。所以第一点就是它的写作风格。第二点是，我认为你是对的。我不知道这个深度研究的输出

应该看起来完全像一个通用的网络 Word 文档研究报告。你和你与文档之间的格式和互动之间有一些东西需要一些产品迭代。没错。我不知道是什么。我回想起今年我们与

像一些人一样进行的一些对话，有点像仪表的情况，例如，是否存在这种想法的更易于处理的界面版本，我正在使用工件，我将其几乎作为这些想法的仪表板来使用，或者它是否是一种情况，它正在进行所有这些非常深入的研究，但随后它几乎是，或者它是否像增强我，而我则进行写作、流程或说话，例如

我不知道，Granola 的人会将这个界面设计得更像是一个在后台默默工作的副驾驶，它让你更聪明，并填写一些内容，而不是试图大声喊叫并为你写论文。感觉研究任务真的很棒。但是，是的，它的产品实例化可能还需要一个周期才能真正达到大众市场。

这很有趣，对吧？因为现在有两个产品问题混杂在一起了，对吧？就像一个代理正在跨网络为你进行费力的研究和综合。对。我很挑剔，就像。

我想对我的写作有很大的控制权。是的。你现在无法在不以他们设置的方式编写报告的情况下获得深度研究和综合。对。因此，正如你所说，你可以想象，可能会进行大量良好的产品工作和发现。也许该

深度研究的输出实际上只是研究，而不是试图将其放入易于理解的报告中，这是最后一步。你知道，顺便说一句，我问了，你不知道这个，但我输入了我们今年所有 Hallway Chat 的成绩单。我还让所有这些模型尝试告诉我们我们自己对这一年的回顾。

好的。我稍后会讲到。但我想说，我今年最大的收获是，AI 工作流程界面终于清晰起来。对我来说，这是一个三面板界面，其中有一个上下文 Dropbox。

你可以在这里使用 ChatGPT、Claude 和其他工具，你可以导入 Word 文档，可以连接到 Google Drive，等等。就像，这就是我获取上下文与模型对话的地方。而不是仅仅让我进行原始聊天，然后是聊天窗口本身，这仍然是我与该模型交互的方式的界面。

然后是模板、平板电脑或游乐空间、云工件区域，模型现在正在为你渲染一些东西。这种三面板式的 Dropbox、聊天和工件是

我现在看到了这种模式。它在 ChatGPT 中。它已被完全采用，但也存在于 Cursor 和 Windsurf 等工具中。如果你看看 Notebook LM，我认为这是趋势。也许这就是总结深度研究产品的方式。深度研究产品在模型层做了一些事情。它正在工作。很好。现在至少你应该将其整合到一个界面中，你可以在其中

这只是向上下文窗口提供内容。这只是左面板。它只是将大量有趣的内容放入上下文窗口。顺便说一句，让我将任何我想要的文档拖到那里，然后让我在中心聊天。

然后在右侧，我们现在可以一起构建论文。我们现在可以一起构建这个东西。我至少会从这里开始。现在，这只是，你知道，两位风投对产品的看法。产品的所有细微之处、奇迹和乐趣都来自实践。所以这将是，我相信你会这样做，你会把它放在那里，你会发现有 15 个错误需要迭代。但至少如果我在 2021 年构建产品，

5，1 月 1 日，我至少会以此为基础，然后继续。是的，是的，我的意思是，总是很好地嘲笑自己，但还有另一种说法，那就是更友善。那就是，我认为我和你对这些事情可以有以用户为中心的观点。如果你考虑一下他们提供的技术，那很酷。但他们为最终用户提供的价值是一份报告。

对。所以他们基本上是在说，我们为你提供了一份平庸的书面报告，因为这是这种体验的正确工作产品。如果人们真正关心的工作产品是实际深度研究的自动化，而不是对它的真正奇怪的框架报告的综合和写作，我会感到震惊。是的，我同意。所以对 24 年的回顾。

从我们自己到我们自己。我拿走了所有的成绩单。好吧，对于其中一些，例如 ChatGPT，当它有搜索功能时，我只是说，看看 2024 年 Hallway Chat 的所有播客。

并为我写一份高级回顾。我希望你关注最具创意和洞察力的主题。我不想要通用的摘要。我想要一套充满洞察力的标题。即使只提到一次的主题也可以进入摘要，如果它们对 AI 初创公司的创始人及产品构建者足够有价值的话。这就是我的提示。我在任何地方都使用相同的提示。我把它给了 ChatGPT，然后是 O1 模型，然后是 Claude。然后……

我必须告诉你，这是一种我一直在努力应对的有趣情况。我会把它们读给你听。但我的感觉是 Claude 打败了所有其他模型。这让我进入了一个时期，我会认为回顾一年以及成绩单，像 O1 这样的东西……

将进行更深入的研究以回到之前的主题。顺便说一句，在我们谈话的同时，我决定将其放入深度研究中。你也可以从深度研究中获得反馈。所以我稍后会回到这一点。所以 ChatGPT 基本上给了我一个包含 10 或 12 个项目的列表。然后我说，太多了，就像基本上总结了前三名。ChatGPT 的答案是以用户为中心的设计胜过模型痴迷。

好的。你知道，重点，对吧？然后第二，避免 AI 炒作陷阱。然后第三是根据不同的用户需求定制 AI 解决方案。好的。这太糟糕了。这太糟糕了。我不听这个。你甚至没有内化任何这些词。也没有任何人倾听。所以 GPT-01，现在这至少是可以处理的。同样，它给了我一个包含 12 个项目的列表。

同样，我说，听着，总结一下，伙计们。它说专业化胜过规模。因此，初创公司正在发现，较小的特定领域 AI 模型比大型通用模型提供更多价值。第二，数据是你的差异化因素。训练数据的策划和仔细选择已变得与产品构建一样重要，等等。第三，改变胜过代码。

组建一个对 AI 技术充满好奇心、适应性强且具有战略眼光的人才团队比任何单一工具或算法都更重要。顺便说一句，我不知道我们什么时候谈到过第三点，但这似乎是一个相当不错的观点。我喜欢它，是的。但所有这些似乎都很好。老实说，它们感觉不像我们真正关注的事情。它们感觉就像，感觉就像 Owan 做了很多研究，然后给出了一些通用的建议。这是 Claude。现在，Claude，我不得不做更多工作。实际上，我不得不将大量成绩单复制粘贴到项目中。

在某些情况下，因为它没有网络搜索。但它这么说。以下是创始人及构建者三大战略见解。第一，OKR 化陷阱。对短期指标和季度 OKR 的痴迷正在积极地阻碍 AI 产品的创新。在优化效率提升十年后，初创企业生态系统已经形成了快速迭代和可衡量增长的肌肉记忆。

公司正在取得突破性进展，因此他们愿意抵制这种对即时指标的压力，并对一些不可衡量的事情采取长期观点，这实际上是我们几分钟前在这个播客中谈论的内容。第二，软件应该柔软。我喜欢这个。引用了我们与之交谈的人的话。从交付固定的软件产品到按需生成可变软件，正在发生根本性的转变。继续。我会继续。

“深入挖掘才能保持领先”是第三点。虽然许多初创公司试图快速构建在 AI API 之上，但最具防御性的地位似乎来自更深入地挖掘堆栈。这意味着不仅仅是提示工程，还要关注数据排放的关键部分以及它们可能会随着时间的推移为你的用户开发哪些独特的见解。就像，当我回顾所有这些时，你有什么想法？这些见解有用吗？Claude 比其他模型更胜一筹。但是，是的，当然。就像，我认为这会得到……

在 12 个月内进行的那些不集中的滚动对话。很难切入并总结，但这做得相当不错。好的。所以我也有来自 Gemini 的实时反馈。这是深度研究 Gemini，它可能更好。好的。所以它实际上所做的是提取

标题。就像它实际上摘录了我们播客中的引言并将其变成了标题，我想这还可以。但它基本上也只是我们所做的播客的标题。但它是忘记现有公司。是初创公司与大型语言模型的竞争。好的。对。软件应该柔软。好的。对。为用户代理而不是你的界面设计 AI。对。

AI 如何赋能业余爱好者和创意人士，我们为此做了一整集节目，但也触及到了。否则，为业余爱好者构建与为创作者经济构建有什么不同？然后这个只是一个标题，在 AI 的 S 曲线上制作产品，适应破坏，这实际上只是其中一个节目的标题。不错。不错。我认为这也是今年贯穿始终的一个合理主题。

这是公平的。我们身处何地，你应该构建什么类型的功能？绝对的。你知道，我认为你忽略了一些东西，因为我们今天有了一个错误的开始。OKR 化以及你所衡量的内容，你只能在你所衡量的内容上推动改进，等等，等等。我认为我们还没有谈论过 Claude 和语调。有什么可说的？我认为，你知道，我们谈到了 Gemini。是的，它听起来仍然像是一个完全通用的 AI 模型在对我说话。23 年，我认为是 Claude 真正掌握了语调的那一年。

我们已经两年了。我认为还没有人真正与之匹敌。我认为这主要是因为没有评估指标。对。对。仍然没有足够的有效评估指标。所以 2024 年的词是品味。2024 年过度使用的词是品味。一个不幸被过度使用的词。是的。但它之所以成为陈词滥调是有原因的。它就是那个东西。对。而品味是一件非常难以衡量的事情。

很难衡量。如果你的管道和流程围绕着优化评估指标，那么祝你好运获得这个的出色评估。所以我认为，为什么我想重新提出这个问题？我认为这是因为

这些柔软的东西使产品变得伟大，对吧？他们可能在 2023 年掌握了 Claude 的语调，但它显然越来越好。进步的方向已经到位，其他人也注意到了，对吧？有一整篇《纽约时报》的文章讲述了你和我每天都知道的事情。湾区的人们对此疯狂不已。我经历了那个我谈到的时刻，就像它在帮我烤肉，语调非常好，以至于我一秒钟把它当成了同伴。我非常不在那个阵营。看，我认为这总是正确的。在过去的 20 年、30 年、40 年中，我们几乎总是在任何时候都可以谈论设计和产品的价值。我可以提出，只是引用史蒂夫·乔布斯从 1985 年开始的引言，接下来的 20 分钟都可以。这很好。我喜欢这样。这总是正确的。我一点也不介意。我会说……

真实的事情甚至更多的是，在一个我们过去 15 年一直以数据为中心并且在测量更多事物方面越来越好的世界里，你必须假设你所有的竞争对手也在测量这些事物。而且，你知道，你所测量的东西就是你变得更好的东西。

但在一个衡量更多事物的世界里，因此，在那些无法衡量的事物中的杠杆作用就会增加。因此，我认为，作为领导者，你的挑战是，哦，建立 OKR 或评估指标很容易。朝着目标努力很容易。事实上，这是我能帮助激励我的团队并理解我们已经实现目标的最清晰的方式，所以我们不会仅仅

自我满足地拍拍自己的后背说，干得好，但我们实际上知道我们确实做到了。但与此同时，你的产品中最难以衡量的一部分可能是其最具防御性的部分。对。

这正是这个难题的一小部分，它在未来几年中只会越来越有影响力。因为，当然，你可以评估的所有内容不仅仅是你的团队使用 OKR 对其进行评估，而且是你正在构建的模型也在对其进行评估。因此，你的模型将自我改进，而这些其他模型也将自我改进。因此，无论如何，这就像一场老鼠赛跑，对吧？

因此，你的产品理念的任何部分，你的客户体验的任何部分，这些部分似乎有价值但很难量化，这些东西作为整体竞争优势将在未来几年中相对价值增长。这可能是一个坦率的 5 年、10 年的趋势。当然。如果你能做到这一点。但我认识到，就像，

那么我该如何激励我的团队去做那些无法衡量的事情呢？这是一个非常有趣的、我们现在没有时间讨论的更长期的讨论，但这是我们都应该努力寻找的地方。是的。是的。所以这是我和你从你的问题中得出的漫长而杂乱无章的道路，我们现在看到了什么，很可能在今天成为引人注目的产品？

明年某个时候。我会把深度研究放在这个类别中。就像我认为伟大的研究才能做到这一点。我认为如果你通过团队构建演示平台来展示这项研究及其功能的角度来看，他们做得很好，你知道，可能是在非常紧迫的时间表下，但这并不是最终将实现的产品，我们将在明年某个时候看到它。这将是令人敬畏的。就像

毫无疑问，深入的研究和综合对于许多不同的用例和许多不同的用户都将非常有价值。

是的，我有另外两个。如果你的第一个是那个，我有另外两个。我有一个大的，一个小的。我大的一个是桌面实时流媒体，Google 推出了桌面实时流媒体。还有一些像 Highlight 这样的初创公司也推出了桌面实时流媒体。这个想法是，你与 AI 聊天的上下文窗口只是我现在在我的电脑上正在做的事情，这显然而且明显地最初是神奇的。

但我认为它仍然处于某种程度上产品市场匹配的预备阶段，或者我们仍在弄清楚这种关系的适当功能是什么，这就像一年半前，夏季的自主性事物一样，你会看到它的一些闪光点。你会想，哦，这绝对是未来。但过了一周半后，你又会反思自己。你会想，我不知道它到底如何融入我的生活，我不知道哪些工作流程，我不知道什么时候该谈论什么，以及所有其他尚未真正协商和解决的事情。对。所以这是我要关注的一个方面。我认为这是一件真实的事情，可能需要一些迭代才能实现。你同意吗？或者你有没有发现谷歌桌面研究的模式？

不，我完全同意。不过，设想一下未来将会基于此推出哪些类型的产品，这真是令人兴奋不已。问题是你上次和我们聊天时向我提出的，我不想要那种感觉像是辅助功能的东西来叙述我面前屏幕上的内容。对。就像你和我一样有同样的经历。它

我看到一个仪表板，旁边是一个网络摄像头视频，显示某人等等等等。是的。就像，谢谢，伙计。我不是瞎子。我在看着窗口。我知道这是一个窗口。我不需要描述屏幕上的所有窗口。是的。

是的，但它会很棒，因为短期内，你会问它如何做某事，它会告诉你，然后你就会去做。然后随着时间的推移，会有产品能够控制你的鼠标，并使用这项技术去做那些事情。但我们只是看到了这种能力的一瞥，它会越来越好，然后被提炼成能够真正交付这些事情的产品。但现在感觉它还没有达到那个水平。

是的，我同意这一点。但这让我对未来感到兴奋。我们可以看到所有的实验。哦，当然。我以前告诉过你。我认为我最期待未来的是在01中首次出现的这些推理模型。是的。部分问题是关注演示研究的人群是

比几年前多出好几个数量级。对。你和我在GPT-2发布时玩过，我们会眯着眼睛看它，试图理解它。但玩过它的总人数可能只有几千人。对。

但现在你发布了一些真正了不起的研究成果，比如01。人们会说，哦，它写论文不如4.0或Claude好，对吧？它不好。因为现在这些演示和研究发布的目标受众基本上是……

基本上是，你知道的，数亿人。当我第一次体验到它时，我给很多朋友发了消息祝贺他们，因为它真的让我感觉像GPT-2，它不是GPT-1，它是GPT-2，因为他们已经把它做得足够好了，你现在可以体验到即将发生的事情了。是的。我认为在两到三年或四年内，我们将再次看到与GPT-2到现在的变化相同水平的变化，这要归功于这种类型的模型和架构。是的，我上周在一次晚餐上有人问我关于O1的问题时，我用的词是，哦，是的，感觉这是一个很棒的模型。只是缺少它的ChatGPT时刻。

是的，是的，是的。但GPT-2的ChatGPT经历了三四年时间，以及许多不同的，你知道的，几代产品。我非常，这是一个很好的说法，我们将看到它变得更好几个数量级。我们还将学习如何将其塑造成有效的产品体验。它已经很深刻了。太棒了，对我来说，这是今年最令人惊叹的技术发布之一。当然。我认为我们距离看到产品还有很长的路要走。

我仍然不知道什么时候该用它，什么时候不该用它。例如，有时Claude的语气对于我的需求来说是一个更好的产品，即使这是一个研究性问题。它仍然能更好地回答。但我最喜欢01的一点是它看起来更真实。

更自信，更不讨好，以一种完美的方式。像大多数这些模型现在都非常阿谀奉承，他们只是为了让你开心。是的，主人，我会去做。他们会做任何事情。事实上，我已经开始在Claude中加入“请不同意我”的指令，就像在项目中的指令一样，试图让它不同意我。而O1似乎更根本地

愿意，可能是因为它的上下文窗口，它的研究正在做的事情，只是回来说，嘿，我认为你在这里的论点有缺陷，或者你在这里做错了什么等等。我给它提供了我与一些合作伙伴就一个奇怪的副项目进行的对话的记录，在这个副项目中，我在伯克利开设了一个棋盘游戏图书馆。只是为了好玩，我记录了两到三个小时的对话，拿走了整个记录，把它放进去，基本上说，

你对讨论的话题有什么看法？我们错过了什么？你最不同意什么？并提供反驳的理由？它做得很好，而ChatGPT做得非常糟糕，Claude做得很好，但我认为，

01在剖析我们谈话中存在的逻辑谬误，然后用一些研究和一些思维过程来反驳我们正在讨论的不同话题方面非常有趣。对于我们的小型奇怪副项目来说，这是一个非常低风险的对话，但这非常有帮助，这很棒。

这个小轶事有很多值得喜欢的地方。甚至是你和朋友们一起做一个在伯克利开设棋盘游戏商店的副项目的想法。我也会随机记录所有这些，然后也将其输入文件。是的，是的，是的。你刚才说的所有事情都是人们在GPT-3首次推出时所说的，对吧？就像，哦，我真不知道什么时候用它。我还不知道如何使用它。感觉就像……

他们正在和我们一起走这条弯弯曲曲的路。他们是模型构建者，对吧？这个时刻如此美妙的原因在于，很多人都在

推动和拉动这些东西，并实时进行实验，以了解它们能做什么，什么是新颖的，什么是有趣的，什么是不起作用的。然后它就会被反馈给构建模型的人，他们会朝着这些方向改进它。所以几代人之后，我们将共同将其向前推进。我认为你是绝对正确的。这让我对整个生态系统更有信心，因为我确实担心一切都会变得封闭。

你是对的。这些东西还很粗糙，这意味着我们都在一起玩耍，试图弄清楚这一切，这正是你想要做的，你

想要成为的。是的，当然。回顾一下，这里有一个不是来自12月的例子，但我们还没有详细讨论过。你和我在玩WebSim上花了很多时间。我认为我们很久以前就提到过它，但后来他们从仅仅是幻觉网站变成了基本上是幻觉网络应用程序。我一直在反思今年的情况。我认为这是我今年使用过的最引人入胜的产品。我谨慎地选择“引人入胜”，因为它并不完全……

有用，也不完全有价值，但通常情况下，这些东西是从引人入胜的东西中产生的。而且，你知道，我们非常喜欢Sean和Rob，他们将其定义为通过软件进行自我表达。而且，你知道，我认为，当编写代码变得自动化和，以及像

民主化或免费时，显而易见的事情。就像你将拥有可以随意处置的软件应用程序。你将按需编写你的SaaS。你将拥有所有这些其他的东西。而这是一种体验，你观察它，你玩弄它。你是软件社区的一部分，通过WebSim进行自我表达，感觉我们将在未来发现很棒的东西。

我同意。它让我想起了Tumblr，让我想起了MySpace。它让我想起了我很久以前构建的第一个

BBS。就像它是一种自我表现的形式，它比某种功利主义的功能、客户开发、V2V、垂直任务流程更具趣味性和表现力。你知道，这让我想起了我们很久以前谈论过的事情，但我认为我们从来没有在这里一起提到过，那就是在我的大脑中一直萦绕不去的一件事，关于

这些产品中没有一个真正发生变化。它们只是针对新的技术框架进行了重新发明。这完全就是它带给我的东西，伙计。你知道，Discord基本上与AOLIM相同，AOLIM基本上与IRC相同。这种观点认为

这种实时消息传递和通信层可能仍然存在于Discord或其他公司中，即使是在20年、30年或40年后。这将是一个可变的需求。然后，如果你采用这种观点，即自我表达是一种，人们几乎有一些规范的行为想要去做。你可以使用这种视角，然后浏览主要类别，并尝试找到一些

领域，你知道，也许2025年的创始人可以花更多的时间来研究这些领域，因为即使我们已经使用人工智能几年了，可能也有一些规范的类别还没有被完全探索过。有趣的是，我完全忘记了这件事，但还有另一种情况，你和我都谈论过它。合作伙伴也谈论过它。我们在非正式会议上简要介绍过它。

我也和一些模型谈论过它。所以我有一些Gemini和一些Claude的对话，我主要是在开车的时候进行的。顺便说一句，这是我的新默认设置。你应该缩短播客作为一种媒介，因为我现在上车后，就只是语音。就像我打开……

与BT语音模式聊天。我倾吐了一些来自上次会议的内容。我只是试图大声思考，我知道我会有一份关于它的记录。我也会得到一些反馈。我有一种辩论伙伴，这就像，我通常会准备一个播客来填充我通勤时的这段时间，但我不知道这对我们现在正在做的事情意味着什么，但这没关系。好的。所以我写了这些。

我试图考虑在消费者和创意软件中持续存在的几大类别，考虑到互联网和消费者只需要的一组基本要素。例如，IRC变成了AOLIM，变成了Discord，eBay和亚马逊市场以及Etsy，Print Shop变成了Adobe，变成了Canva，就像，我给出了一些其他的想法。然后它说，请考虑一下20世纪90年代末的其他规范产品，无论它们是大公司还是小公司，重要的是它们感觉流行且必不可少。

然后考虑一下2010年代与相同使用模式相匹配的现代公司。不需要有2020年后的当代公司，等等。先考虑五个，然后我们再从那里开始改进。它给了我一些，我反复权衡，因为当然它有点偏离了。我在向量空间中没有完全正确地理解它。所以有点围绕着它。

我将读出其中的一些。我希望你想想你是否认为这些中的任何一个，特别是考虑到我们刚才谈论的内容，即2024年。

我们有一些实时实验。我们有一些深度研究的实验。我们有这种进化或表现形式，就像几乎是三面板视图工件、聊天和上下文窗口。因此，考虑到这一点，以下是它提出的规范内容。它是信息检索。这是一个显而易见的内容。Ask Jeeves变成了Quora，变成了某种问答格式，诸如此类。

不，我不喜欢这个列表。我现在正在看这个列表。我有很多这些模型给我的列表，说实话，我不喜欢这个列表。它们就像，好吧，但它们需要一些人工干预。

它们仍然不怎么样。总结了过去几年。没错。好的。我将读出一些看起来比较有趣的内容，但我将跳过一些看起来很愚蠢的内容。所以，是的，我认为有一个问题是Quora的未来问答格式是什么，以及它是否会在ChatGPT中完全解决，或者是否会有新的东西被发明出来。

写作和文档工具，就像WordPerfect变成了Google Docs，变成了Notion。下一个版本是什么？它很可能看起来像Notion，但我不知道。有一个世界，那就是完全不同的东西。数据分析，你需要做的核心规范的事情。你开始使用Excel或Google Sheets、SQL来做这件事。下一个版本是什么？我们已经看到很多初创公司正在尝试这样做，但感觉我们还没有完全达到它应该达到的水平。

我一直在思考这个列表上的另一个问题，那就是在线评论和推荐，你知道，意见到Yelp。未来对某事进行判断是什么感觉？我重新思考的方式是，如果Web 2.0是众人的智慧，那么我认为这个人工智能时代是专家的智慧。这是一件不同的事情。如果我问我的脸上这个皮疹是什么，那是什么，我不需要大众智慧的版本。我不想要谷歌版本的我的脸上皮疹意味着什么。

众所周知，这只会意味着癌症，因为你在谷歌上搜索到的任何东西都会是癌症。但我想要的是专家的智慧。我想要，你知道，40位非常聪明的医生，他们已经将对这可能是什么的思考输入到模型中。我们显然已经看到了这一点，模型公司现在正在花费巨额资金，雇佣大量博士来进行大量的数据模型输入。所以我不知道这里是否也有类似的版本……

你知道，如果这个时代是专家的智慧，那么是否有一个版本与这个特定的产品类别有关？否则，我不知道我们从哪里获得新的信息。

与互联网垃圾相比，与ChatGPT只会吐出没有净新增见解的东西相比，对吧？没有某个走进那家餐馆并认为氛围好或坏的人的地面实况数据。非常有趣。当然，这会继续下去。就像会有一个新的Reddit。就像我今天使用Reddit来发现网上要买什么东西一样。

但毫无疑问，肯定会有一个全新的，对吧？就像告诉我。就像你过去会为Yelp做贡献，你会获得一点名利，因为你以后会通过SEO找到它。然后Yelp会获得一些广告收入，他们会从那里获得流量，然后他们可以将其货币化回给试图获得知名度的商店的广告收入。

但如果我只是在和模型说话，模型首先把我作为一个积极的参与者移除，即使我评论了那家餐馆，它也不必说出我的名字。所以我不会获得名利。我不觉得自己是一个快乐的Yelp精英，对吧？然后这会让我失去为模型做贡献的动力，因为我没有得到认可。然后也没有广告了，因为模型只是在回应。

Web 2.0的众人智慧模型就这样被打破了。我不知道互联网上新知识产生的新模型是什么，除非模型按小时雇佣博士来使他们的模型变得聪明，这是2024年的答案。但这感觉很蛮力，很丑陋，而且随着时间的推移不可扩展或不可持续。这不是一个健康的生态系统。这感觉不对。

这感觉就像你通过付钱给教授让他们尽可能多地写论文来开设一所大学，并按论文产出来支付他们报酬。这不是一个生态系统。我们偶然发现了我认为是一个很棒的讨论，但我认为我们今天不应该这样做。不，不，这是一个非常有分量的话题。我花了一秒钟才意识到你甚至在谈论什么，但它打破了Web 2.0的核心命题。

也许有一种新的产品体验可以利用人工智能，但这不仅仅是你对模型。也许仍然存在某种动态，集体存在或某个小型社区存在。但对我来说，总结就是我想知道Web 2.0中大众的普遍智慧。我想众包成千上万的意见，并获得这种意见的净平均值。这不是我想与LLM模型互动的方式。我希望LLM模型知道

谁是聪明的，哪个主题的专家在哪里，比那些

没有受过教育或不了解该主题的人更重视该主题的博士，我希望理解并能够获得他们的知识。这就是人们所做的。顺便说一句，这就是评估所隐含地做的事情，对吧？就是你有一群博士在对正确和错误的答案进行投票，从而使其倾向于博士认为正确的方向。这就是正在发生的事情。这就是它随着时间的推移获得更好的数学答案的方式，对吧？这就是它随着时间的推移获得更好的哲学答案的方式。

只是他们以一种感觉蛮力和不可持续的方式这样做，只是字面意义上按小时支付聪明的人尽可能多地去做。这感觉不像你为未来重建了全球经济的方式。这感觉像是一个短期的、小脑的解决方案，你把钱扔到问题上。

有一种感觉在我心头萦绕不去，感觉我们应该有一种更优雅的方式来组织未来的经济。如果这真的是我们所有人将在未来几十年内变得聪明和工作的方式。我们可以在这里停下来，我们可以再回来讨论。但我认为这是我认为这个问题的总结

我们从Yelp的对话开始，但显然它更深更广。这就是这些模型变得聪明的方式。你认为雇佣医生不仅对结果进行排名，而且创建奖励数据或微调RLHF数据是小脑吗？我不知道这种纯粹的一对一资本主义观点是否像，是的，你为劳动支付报酬，然后他们制造东西，然后你利用劳动。这就是经济应该运作的方式。

我仍然迷恋于这种非常优雅的方式，尽管它并非没有缺陷，但我们允许人们直观地和内在地做他们真正热爱的事情的方式非常优雅。他们沉迷于查看餐馆。所以他们就去做了。然后我们找到了一种方法让它发挥作用并加以利用。

如果我们能够以一种奖励人们内在行为而不是外在行为的方式来解决知识问题，我们将获得更好的结果，并且我们将以更大的规模运作。这并不意味着他们没有得到报酬。我不是说我们不付钱给人们，人们应该。

找到方法来获得他们工作的报酬。但这可能是我试图抓住的总结。嗯哼。嗯哼。天哪，这里有很多不同的东西。比如，大型模型的训练数据在哪里？在线自我表达的渠道在哪里？Yelp和Reddit以及其他一切的商业模式都允许这些社区蓬勃发展。但在商业模式发生变化的世界中，服务将如何变化，或者哪些新的服务将出现？是的。

来取代它们。这里有很多非常有趣的东西。是的。好的。所以我将总结一些规范的类别，然后你将看看这些类别中是否有任何一个会引发另一个长达一小时的深入讨论。我不这么认为。我的意思是，这里其他的内容是……

媒体消费。这是一个显而易见的内容。音乐、电影等未来的发展方向是什么？扩散模型和其他模型如何发挥作用？这是一个明确的内容。这是我们做的规范的事情。市场。所以是eBay、亚马逊和Etsy。我认为在搜索方面

你可能可以重新设计界面。然后我们看到一些人在创作方面也在进行实验，对吧？当你能够想象你可能制作的任何东西时，Etsy会发生什么？并且是否存在一种方法可以让它成为创造者和买家之间的对话？是否存在一些方法可以改变这种关系，使其感觉更具协作性？我认为有很多有趣的方式可以重建在线市场的感受。这里还有什么其他的吗？呃，

项目管理？当然。总有一些Asana、monday.com的版本。就像总有一些跟踪一切的版本。将会出现一个新版本，它将针对人工智能能力的世界进行重新思考，当然。对吧？当然。是的，100%。是的。

像旧的那些非常粘性。就像Jira仍然存在。对。不幸的是，但将会出现一个针对人工智能世界重新思考的新型现代体验。是的，没错。我们可以在这里停下来。这些是一些在圣诞节假期中可以回顾的事情，当你和家人在一起有一分钟时间，然后你感到无聊，因为他们正在播放一些太无聊的圣诞节目，但他们每年都喜欢看它，而你的思绪在游荡。是的。

你可以让它游荡到这个领域。我有一个更新。最近，我们谈到过，在2023年之前，没有任何产品引入了真正可用的AI功能。这让我完全处于曲线的左侧，毫无疑问。

我认为总的来说，Apple intelligence的集成真的很笨拙，而且很像火腿。不，不，不，不，不，不，不。等等，等等，等等，等等，等等。而且它很笨拙。而且，我不想要那种重写功能，我只是想复制粘贴这些东西。别给我那些。

我非常自豪于那个团队，他们拥有新的相机按钮，允许你直接进入vision for chat GPT。但我演示了两次，这很酷。我不知道我会多久返回一次。我喜欢的东西，它可能是我2024年最喜欢的AI功能之一。

是在邮件和消息中出现的摘要。它非常好。你爱它。它非常好。我喜欢它。我每天都会使用它一百次。是的。而且，它们很棒。我不知道。我不知道，伙计。就像我不同意。我恭敬地不同意。我确实使用了消息摘要功能。

我发现它不太好。也许在邮件环境中它更好，因为它有更多文字和更多段落可以使用。所以有一些东西可以总结。但当它试图总结五条文本时，它会有点偏离。

我现在正在邮件中查看它。它非常准确且有用。我猜他们一定训练了自己的模型。而且有人非常关心产品体验，这令人愉快。你看着我就像我是一个疯子。

我确实想使用的一个东西是我的朋友Dan Chipper在Every公司。他昨天发布了一个名为Quora的东西，我还没有机会安装它。但它是一个收件箱代理，它基本上会总结你所有的电子邮件，并每天给你发送两次电子邮件摘要。而且

还有一些用你自己的声音起草的回复，理论上。我更有可能这样做，而不是切换到Apple Mail。那是肯定的。哦，我对2024年的最后一点看法，就像外卖一样。我必须告诉你，我本周与一位创始人进行了交谈，他应该改名，但正在运营一家AI初创公司。我经常与他交谈的人，

他只是在谈论他如何在过去几个月里意识到，大约一半的AI团队，也许只有10%的整个团队实际上是AI红丸时刻。让我解释我的意思。

在ChatGPT时刻之后，我认为人们的大脑中会发生第二个时刻，他们会想，哦，这不仅仅是一个我可以与之辩论的更智能的搜索工具。这就像一个初级同事和合作伙伴。人工智能是否有帮助？

但是，在这个过程中，你会经历这样一个时刻，对很多人来说，这就像看着Devin或某种自主运行的东西四处跑动，并且真正地完成工作。我和一位创始人进行了一次谈话，他就像，“是的，我意识到我的大部分产品团队，甚至我的大部分团队都还没有达到对即将发生的事情的这种相信程度。然后我

我昨天向一位投资组合的CEO转述了这一点，他说：“我也有同样的问题。我的大部分高管团队经常使用ChatGPT，但只是用于某种类似于‘谷歌搜索增强版’的需求，根本没有……”他称之为根本没有自主地生活。

并没有真正考虑如果你自主地生活，这个世界会是什么样子，在这个世界里，你几乎就像是在向实习生下达指令一样，“让我用段落写下来，真正地向你描述这个问题，这样你才能真正找到答案的根源，并尝试把它反馈给我。”有趣的是，我不知道我有什么收获，只是觉得，“我的天哪”。我的脑海里同时涌现出一大堆不同的想法。

“未来已经到来，只是分布不均”这句话是正确的。这项技术带来的杠杆作用将是如此巨大，以至于那些早期采用它的人将比其他人获得巨大的生产力提升。这是显而易见的想法。我不断反复思考的另一个想法是，我认为很多人没有意识到的是，

人们的生活很忙碌，他们有爱好，也有压力。对你我来说，我们喜欢这些东西，即使它不是我们工作的重要组成部分，我们的生活也会是这样。

但对大多数人来说，这就像，“嗯，这很有趣。”然后他们去看雄狮队或比尔队的比赛，对吧？没有冒犯的意思，但这只是不同而已。我总是惊讶地发现，即使在科技领域，即使是在科技前沿的人们中，思维的灵活性也常常不足。

他们可能缺乏想象力去欣赏这一点。如果它今天能做到这一点，那么一年后，它将为我们所有人做这件事。我认为，如果你把最后两点结合起来，特别是如果你没有玩弄它，而且你也没有很好的弹性想象力，那么很难看到一个月、六个月、八个月或十二个月后的情况。我认为我同意你这两点。也许这就是这里的挑战。

只是不要想当然地认为，即使是我们最亲近的人，也都在使用相同的先验知识，因此做出相同的决定。就像我们团队的人一样，我不会为我们自己的团队做这件事。我会确保每个人都打开了WebSim

Replit Agents和Gemini Deep Research，这三款自主计算工具，每个工具花15分钟，用每个工具构建一些东西，观察它的工作方式。这与你与ChatGPT交互的方式不同，它将帮助你从不同的角度思考产品。我首先要尝试让我妻子也这样做。但我认为，这是一个很好的挑战，坦率地说，要确保我合作的所有CEO

和我合作的所有人，都经历过这样的过程，因为我可能低估了它实际上会给你带来多少优势。即使在我们这个小小的AI圈子里，我们对世界的看法仍然存在差异。

嗯哼。更不用说世界其他地方了。对，更不用说世界其他地方了，当然。所以，构建你最好的WebSim，在Replit或Vercel的V0中构建你最好的东西，也相当不错。我最近一直在玩这个。Windsurf很棒。本周早些时候，从凌晨一点到三点，我因为一个随机的Windsurf项目而浪费了几个小时的生命。在假期玩玩这些东西吧。即使你以前从未玩过，你也会喜欢的。你知道，你刚才提出的所有这些都提醒了我

过去三个月里，很多人都在谈论Gartner炒作周期曲线。他们说，“嘿，我们正处于幻灭的低谷，或者其他什么。”很快就会进入繁荣的高原。说实话，在过去的几个月里，有大约10个人提出了这个问题。我对他们的反馈是，我实际上根本不这么认为。Gartner炒作周期是，呃，

是在90年代为台式扫描仪发明的，对吧？还有网络摄像头，我认为，由于你刚才所说的原因，这些公司的CEO们正处于构建未来不同领域的边缘，他们可能仍然低估了这项技术的作用。我认为，总的来说，我们作为一个社会，对未来十年将要发生的事情，仍然没有那么……

兴奋。我认为我们仍然低估了它。我同意。我相信我也是。

对。这是一件数字零太多，无论你盯着它多少次都难以完全理解的事情。是的，没错。没错。你和我的位置应该比几乎任何人都有利于理解它将会变得多么疯狂。在过去的两个月里，我已经告诉你五次了，我仍然低估了这些产品在几年后对我们生活的影响有多么深远。

是的，同意。好吧，说到这里，也许这就是总结的方式。现在就到这里。我们在假期有足够的时间来玩这些东西。我希望下周我能找到三个新的版本来玩更多AI的东西，思考未来，也可能花一点时间陪陪你的家人。我们也可以做一点这样的事情。我将努力阅读我的邮件应用程序中的Apple摘要。保重，伙计。回头再聊。再见。

Distilling Lessons from AI in 2024 55:58 Share

Hallway Chat

Deep Dive

Shownotes Transcript

Distilling Lessons from AI in 2024