We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

The Unbearable Lightness of Data // Rohit Krishnan // #295

2025/3/11

MLOps.community

AI Deep Dive AI Chapters Transcript

People

Demetrios

Rohit Krishnan

Topics

Rohit Krishnan: 我是Bodo AI的首席产品官。我关注AI领域，特别是推理模型的交互式设计。我认为，未来AI模型的交互方式应该更具互动性，允许用户在模型推理过程中进行干预和调整，从而更好地引导模型得出理想的结果。这对于复杂的推理任务，例如生成详细报告，尤为重要。此外，我还思考AI对就业市场的影响。随着AI模型越来越强大，许多现有的白领工作将会发生巨大变化，一些工作甚至可能完全消失。我认为，未来人们的工作将更多地与AI协作，而数据标注和AI模型的训练将成为新的工作类型。同时，我们也需要思考如何应对AI带来的噪音问题，以及如何有效地利用AI提高生产效率。最后，我还探讨了AGI的可能性，并分析了其发展可能面临的瓶颈，例如计算资源和能源消耗等。 Demetrios Brinkmann: 我与Rohit Krishnan讨论了AI的演变及其对就业的影响。我赞同Rohit关于改进AI交互方式的观点，认为在模型推理过程中进行干预和调整，能够提升用户体验和模型的有效性。同时，我也关注AI对就业市场的影响，并思考如何在AI时代适应新的工作模式。我们还讨论了如何有效地利用AI提高生产效率，以及如何应对AI带来的噪音问题。 supporting_evidences Demetrios Brinkmann: 'All right, a little hat tip to my man Rohit because he was the first person to turn me on to the idea of when a model is thinking, why don't we have the ability to click into the specific steps that it is going over so that we can help guide it better?'

Deep Dive

Chapters

This chapter explores the limitations of current reasoning models and proposes a more interactive interface to improve user experience and control over the model's reasoning process. The discussion revolves around enhancing the user's ability to guide the model's thought process by providing mid-process feedback and context.

Interactive interfaces for reasoning models are crucial for better user experience.
Users should be able to guide the model's reasoning process by providing mid-process feedback and context.
The ability to pause, add context, and steer the model's thinking is essential for effective interaction.

Shownotes Transcript

我的名字是罗希特·克里希南。公司是Bodo，Bodo AI。我的职位是首席产品官。我通常喝拿铁，不过最近我喝脱咖啡因咖啡比较多。

好的，向我的朋友罗希特致敬，因为他第一个向我介绍了这样一个想法：当模型在思考时，为什么我们不能点击它正在进行的具体步骤，以便更好地引导它？我是迪米特里奥斯，今天MLOps社区播客的主持人，这次谈话非常精彩。

我必须告诉你，我非常喜欢你的substack，Strange Loop Cannon，你在上面写文章。我觉得在这个鹦鹉的世界里，你是一位具有原创思想的人。所以，每当你发布新闻稿（我想我们可以这样称呼它）或博客文章时，能看到一些与众不同的东西真是太好了。

太客气了。非常感谢。这是我的热爱之作。是的。我们将讨论你的一些博客文章，这些文章确实激发了我的想象力。但我首先想深入探讨的是我在Twitter上看到的你的见解。你是我仍然查看Twitter的主要原因之一。太客气了……

你在Twitter上发布的内容我非常喜欢，我认为是关于DeepSeek的，对吧？或者是一个Quinn模型，以及它背后的推理。你提到，如果我们能够点击这些步骤、这些推理步骤或它正在进行的每一次传递，那么这个UI可能会更好。然后

调整提示或以不同的方式引导它，我只是觉得这件东西就在我眼前，但与此同时，我从未听过任何人这样说。太客气了，是的，如果我没记错的话，它应该是关于DeepSeek R1的，之前很酷。

是的，我一直是DeepSeek的粉丝。我对推理模型的看法是，为什么这很有趣？有趣的部分是，当我们开始使用纯粹的聊天机器人时，对吧？你问一个问题，它是一个自回归模型，它会给你一个答案。从某种意义上说，这就是你所做的，对吧？它给你一个答案，你不喜欢它，你就会戳它、探测它、把它推到别的地方，它就会为你做这件事。

然后我们开始引入它们可以使用的工具。然后你甚至可以说，记得有一段时间，像ChatGPT刚开始引入工具的时候，但它就是不会使用正确的工具。所以你必须阻止它搜索网络，或者你必须说，不，不，不，使用Python，写一个脚本。不要在脑子里算数。嗯，

我觉得对于推理模型来说，我们正处于曲线的第一个部分，对吧？因为显然，如果你在推理，从某种意义上说，你可以看到思维过程的流程，你知道它越来越接近某种有趣的东西。现在，因为它最终仍然是一个模型，而且不像，你知道，

能够理解你脑海中所有的上下文，有时你确实想停下来，说，不，不，不，就在那里等等。我想从那里开始，因为那是我想要继续进行的真正有趣的部分。现在在像

机械的，不是机械的，在像科学查询中，这可能普遍存在于发现和说：“我想把这个拿去研究。我想把这个拿去搜索。我想用一段代码来测试这个假设。”但如果你想做一些文学方面的事情，也是一样的，对吧？比如它发现了一些关于莎士比亚什么的有趣的比喻。你会说，这很有趣，这是一个很酷的想法。我想从这一点出发

推断，因为很多时候，否则它可能会倒退、转向或去其他地方。最终，我们是这些模型的消费者。所以

我认为我们对如何让它运转的控制越多，对我们就越好。另一方面，所有这些模型都越来越擅长弄清楚我们作为用户想要什么，因为这就是它们被训练的目的。随着它们越来越擅长弄清楚我们作为用户想要什么，对于普通模型来说，这种需求可能会减少一些。

但是对于推理模型来说，我们从根本上问非常详细的问题，而答案不是一条消息，而是一份报告，那么这样做的需求就会急剧增加。因为我不知道你怎么样，但每次，无论是在工作中，还是在其他地方，你从别人那里得到一份报告。

即使做得非常好，你也会有疑问。你会说，我想多了解一点。我想在这里多探究一下。我想增加你对这部分的放大倍数。这部分没那么有趣。所以让我们，无论如何。我认为这种对话非常重要。而这种对话很难用10000字的对话来进行

你知道，Deep Research给你带来的输出，更容易让你说：“这是一个有趣的推理点。在你思考事情的过程中，我想给你一些关于这里什么有用的见解。”我们会到达那里的。我100%相信我们会到达那里。真正地把它变成一个合作者是一件很酷的事情，因为当你这样做的时候……

它正在吐出这些推理点或它正在经历的步骤。而且你能够，我认为我设想的方式是，你能够点击其中一个，然后添加更多上下文，或者像你说的那样，从这一个推理点激发多个不同的动作。

因为最终，这些都是思维链，对吧？它是展开的思维链。如果它有一个思维链，那么我们应该能够暂停它或戳它，然后从那里开始。我认为这是与这种特定思维过程交互的正确模式。我们可以要求它从这一点开始更多地思考。你可以添加更多上下文。你可以直接说：

这真的很令人感兴趣。你为什么不去搜索一下，然后回来提供一些见解呢？因为并非所有事情都需要等价。是的，这几乎就像检查点一样。正确。你正在给它更多关于什么重要或信号在哪里以及噪声在哪里方面的反馈。正确。

你确实希望模型做得最好，但从根本上说，所有这些模型在很大程度上都对它们的上下文视而不见。我的意思是，你必须提供，这就是为什么像O1这样的模型，如果你给它更多信息，会做得更好。因为它只是，它怎么知道？它不可能知道。所以，像

你必须不断地提供大量的背景信息，然后它才能在提供这些答案方面变得非常出色。提供大量背景信息的一种方法可能是暂停它，然后添加更多信息。我认为这将是我们弄清楚如何根据问题和答案，引导它们朝对我们更有意义的方向发展的一种好方法，对吧？这也意味着你可能能够侧向

一起玩耍，说你有一个报告生成，这是一个正在构建的根本性的共同创作方面。但还有一部分，它不仅仅是报告创建。你实际上还有一个对话代理，你可以同时进行对话，这样你就知道报告中应该包含哪些内容。我不知道你是否尝试过OpenAI的新Deep Research功能，但它会为你提供一个，它一开始会问几个问题。

然后改进计划，然后它就会开始工作，比如，无论如何，10、15、30分钟。现在，输出结果令人惊叹。然而，大多数时候，它所呈现的有趣的东西都在这30分钟的过程中某个深处。如果我们有更好的可控性，会更好还是更坏？我认为会更好，因为你可以真正地……

获得更多，比如你可以要求它深入到你最感兴趣的报告空间，而不是要求你创建一个报告，然后得到这个，你知道，5000、8000页的输出，8000字的输出，然后你需要通过说：“哦，猜猜看，在4.5节中，你为什么不……”来改进它，这是一种非常糟糕的分析方法。至少这是我的假设。感觉上，那里有

你拥有报告的潜在产品，你可以直接在其中添加评论，然后它将激发模型的更多进展或更多行动，并尝试改进这些不同的部分，或者

有一种想法是，你可以在幕后看到事情是如何发生的，并且在事情发生时看到它。然后，就像你说的那样，以某种方式引导它，或者试图弄清楚这是否有价值，或者没有价值。我想在我看来，困难的事情可能是你需要一段时间才能识别出什么东西很重要。

所以当它正在创建这份报告时，它可能会吐出报告，然后你就会想追溯到幕后，说：“在第七步这里，我们应该左转而不是右转。”正是如此，因为最终，你确实希望对那些你认为重要的东西有所输入，因为你是提出问题的人。

通常是为了采取行动，学习一些东西，在其他地方使用它，无论它是什么，你的目标都是利用这些信息来做一些事情，对吧？即使只是为了自我提升，仅仅因为你喜欢它。这需要与你正在接收的输出进行更多互动。R1的酷之处在于，它是第一个我们可以真正看到其整个思维链的推理模型

它本身就是一个令人着迷的东西。因为它很多次都会像，“哦，等等”，或者像，“让我回溯一下”。部分原因是它的训练方式，它是一种非常人性化的阅读和理解它在思考什么的方式。所以这就像你在窥探正在为你工作的某人的思想。如果是这样的话，那么……

你想更好地引导它，引导它朝着正确的方向前进。你不想让它陷入死胡同，或者你不想让你不兴奋或不感兴趣的东西，对吧？所以，你能给它更多的输入越好。为什么所有的输入都应该预先加载，而不是你可以在途中给它的东西呢？特别是如果它充当代理，那么这是可能的。我经常思考

认知负荷的概念，以及如果这要面向用户，而你作为用户必须预先加载所有这些信息并使其正确，然后等待15分钟看看输出是否正确，然后改进它并等待另外15分钟，等等，等等。我认为这将体现出来的一种潜在未来是

就像你使用Notion AI一样，我不知道你是否经常使用它，但这非常像点击。是的，除非你想，否则你不需要太多提示。所以可能你会点击这些思维链中的一个，然后你可以做一些基本的事情。最常见的事情是，比如，“在这里深入研究”或“在网络上搜索”，然后你可以添加任何你想要的东西。所以有很多很酷的产品体现。我确实想知道……

模型方面的技术可行性。你觉得让模型暂停并仅仅切断上下文会很难吗？因为我知道对于像语音的流式API这样的东西，

你确实在模型中内置了这种能力，你可以切断它。然后模型会理解，好的，我在这里切断了。我没有说出我想说的一切。所以我不会假设这个人理解我即将说的一切。好吧，我认为这是可行的。原因主要在于，最终……

为了选择它应该遵循的正确路径，思维链的多次展开是相对可中断的。

之前发生的事情或它展开的事情并不一定会消失，对吧？只要我们能够在某个地方捕获它，如果你想重用它或从那里开始，这是可能的。如果你考虑一下目前存在的最聪明的模型，你可以选择你的推理工作是高、低、中，无论什么，对我来说，这表明，不仅仅对我来说，这表明你可以选择不把它推到极限，如果你想，比如，

一旦你思考到某个点，它就会给你一个答案。这只是考虑到你提出的问题，它并不是最好的答案，这实际上是一种说法，即在这一点上，在每个点上，你都有选择更多搜索的可能性，这意味着展开更多内容或吸收更多输入。而吸收更多输入根本上不应该在架构上很困难或非常困难，对吧？如果这没有被研究，我会非常惊讶，特别是由于，你

人们试图将工具的使用引入这些展开中。如果你将工具的使用引入这些展开中，那么几乎从定义上来说，你正在引入一种让模型

做某事的方法。现在，工具的使用可以是内部的，比如编写一段代码并验证它等等，但它也可以是外部的，对吧？它可以对文档语料库进行RAG，也可以去搜索或查找，或者，你知道，无论什么。这些都将额外的外部信息带回。所以，

你知道，你甚至可以在这一点上做一个粗略的版本，如果你因为某种原因不确定，或者如果用户打断了你，接收该输入，然后从那里展开。完全可行。我喜欢这个话题。我非常期待未来我们如何与LLM互动，正是因为这个原因，因为就像你说的那样，

如果还没有人正在研究这个问题，我会非常惊讶。如果他们没有，那就开始吧，因为我们正在要求它。而且，如果我们可以看到它，那么我相信顶级研究实验室也可以看到它。正确。你还有什么其他的疯狂想法是你每天或每周都在思考的吗？我的意思是，我一直思考的一件事是

特别是自从O1 Pro以来，我想说我们已经达到了模型实际上非常好的一点。我认为我们已经达到了这一点。现在，我认为模型会继续变得更好，速度更快，更智能，工具使用等等。所有这些事情都会发生，这意味着

在不远的将来，我们将开始能够越来越多地将这些东西用于现实生活中的工作。因为我们已经可以使用它们了，但它们现在更像是针对思维的乔布斯式自行车，而不是，你知道，自主使用。但我感觉我们正到达一个可以看出实现这一目标的路径的点，对吧？

人们会说他们总是能看到它，这可能也是真的。但对我来说，这就像，你知道，理解代码库内部的情况并贡献PR，这是一种你可以想象模型能够做到的事情，因为它拥有正确的工具包来获取信息，并能够进入其中。在这种情况下，我一直都在想，你知道，我几乎有一个社会经济学问题，那就是这个世界到底是什么样的？

因为大量的现有普通白领工作将发生相当大的转变。如果它发生了相当大的转变，我不知道这对于经济的二阶影响可能是什么。比如，你知道，我不是一个末日论者，所以我认为我们会想出新的方法来利用我们周围多余的人力和洞察力，这很好。

但就是这样吗？或者，你知道，我们在哪些类型的就业方面会发生根本性的重新调整，这些就业基本上消失了？比如，我曾经写过一篇关于

你知道，电脑曾经是一份工作，对吧？它曾经是人们的工作描述，但现在不再是了。现在它是一台机器。同样，你可以想象，也许今天的分析师或研究人员是一个工作描述。这种工作描述完全消失了，在这种情况下，你必须与AI有非常不同的互动方式，以便能够捕获信息或以某种方式利用它。

我不知道那是什么样的，对吧？我的意思是，你最终是否会拥有更多编排需求作为与模型交互的主要方式？不清楚。但我认为这是我花了一些时间思考的一个有趣的事情。所以我确实喜欢你在你的一个博客中如何谈论

一些可能由此产生的工作是高质量的数据，通过的数据标签员。我们知道，好吧，我们将，我忘了你如何表达的，但我们知道这最终将是一项由机器完成的工作，但在那之前，我们必须获得大量的数据。所以我们将招募标签员，

在这个特定领域，你将几乎像临时工一样工作一段时间。我认为的一件事是，它甚至不是数据标签员本身，对吧？我认为这几乎就像，如果这些基于转换器的模型非常擅长识别模式并利用它们来创建输出，如果这是真的，看起来是真的，

那么有理由认为，任何持续进行的过程或任何持续进行的工作，只要有足够的数据，都应该实现自动化。正确？因为你拥有这些数据，如果这些数据确实被捕获，特别是过程数据被捕获，你应该能够自动化它。如果是这样的话，那么无论你做什么工作，你工作的一部分

最终都必然需要你成为未来将要出现的AI的训练轮。比如，我不认为我们能摆脱这一点。对于极其简单的任务，也许你可以只获得数据标签员，这很好。但是

你知道，如果你正在做一些AI实际上无法完成的高价值任务，那么这实际上意味着什么？我的意思是，这是否意味着你只是做你的工作，同时进行数据捕获，并在某个时候，两年、三年后，或者在他们获得实际数量的数据时，你实际上被转换到AI世界？这是可行的，对吧？我的意思是，这就是我所说的2040年的经济现实可能是什么样的？

假设我们不进行递归自我改进，一切都不会变得疯狂，这是可能的，但这很难预测或理解。但对我来说，这似乎是可能的。我不知道，说出一个工作吧，对吧？我的意思是，他们都必须经历一系列工作，而做这项工作的每个人几乎都必然会成为未来某个时候将要创建的一些模型的数据标签员。我不明白什么，我的意思是，我认为这是可行的。

我思考的一件事是，模型现在产生了多少噪音，以及输出如何以某种方式使信息变得廉价。正因为如此，回到像没有认知负荷或大量认知负荷的问题，如果你期望阅读每份8000字的报告，

然后必须调整它，并必须来回处理它。这种事情会产生很多噪音。AI被信任来做我们正在谈论的很多事情，比如在任何工作或领域中。但让我们以这个例子为例。我真的很喜欢理解代码库然后提交PR的一个例子。当然。必须审查所有这些PR的人

将会疯掉，因为会有很多糟糕的PR。正确。所以也许你会说，好吧，我们将让另一个AI来审查糟糕的PR，然后只有好的PR才会出现。然后你认为，好吧，这会消除所有的噪音吗？你明白我的意思吗？我明白你想说什么。我的意思是，我不认为，我不知道噪音是否正确。

框架我喜欢这个框架，但我不知道，我认为，首先，当然你会让它来审查PR，这也很有意义，因为在某种程度上，审查PR可能比编写PR更容易……而且确实，很多PR，特别是当我们处于曲线上的时候，很多PR可能并不出色，这是一个事实。

然而，我们在那个世界里所做的是，我们有效地使PR商品化了，对吧？PR不再是一件大事了。这就像随便什么。这就像发推特，你知道，任何人都可以做到。这就像它不是一项高强度、高复杂度的研究活动。这只是任何人都可以参与的事情。

如果这是这个世界，那么噪音也没关系，对吧？因为Twitter上的很多噪音，它仍然很好，因为我们出于某种原因有效地使用它，因为我们能够以某种方式从其中收集信号。投入的工作，仅仅因为它具有更高的体积和更高的方差，并不重要，因为净净的东西最终会奏效。PR变得越来越

在某些方面，就像你打破它，你只需要再做一次，你只需要打破它，你只需要做……你不再害怕了，就像你只是会破坏东西，因为突然你能够做到这一点的速度提高了，我认为这对许多不同类型的工作都是如此。我认为最困难的地方是像学术界这样的地方，在你能实际创造多少方面存在固有的障碍，所以

你知道，高产的学者，比如，经济学中的阿西莫格鲁，他在很短的时间内撰写了数量惊人的非常高质量的论文。我认为有一段时间他写的是，我认为一个月一篇，或者类似的东西，发表在顶级期刊上，你知道，合著等等。我想，好吧，但是今天，如果你能够加快速度，并说：“你每周可以写一篇顶级期刊的文章”，

这对整个系统会有什么影响？它只是把它分解了，对吧？因为突然之间，每周一篇意味着系统中没有其他部分能够捕获你。没有人能够足够快地审查它。期刊不会那么快发表。你剩下的只是把它放在档案馆里，对吧？在那一点上，你实际上……

你知道，突破了现有等级制度，就如何让它发挥作用而言，这与敏捷等等非常相似，因为它们突破了曾经存在的六个月、一年的发布周期等级制度。因为如果是一年六个月，一年，那么你只能做这么多。但是现在，如果你每天、每周、每两周都能发布一些东西，突然之间，你知道，你做这项工作的方式本身就改变了，有些类型的工作完全消失了。是的。

我认为这将影响经济的许多其他部分。所以我认为噪音是一种，对我来说，以这种方式来看，一定程度的噪音是一种特性，而不是错误，因为它表明你拥有足够的速度，我们愿意承受这种噪音的打击，如果这说得通的话。是的，这确实让我思考到另一边的人，他们应该

吸收所有这些信息。比如，如果我们现在每周发布这些非常深入的研究报告，而不是每月一次，那么阅读这些报告的人的注意力就非常宝贵，因为将会有，我们认为现在有很多信息，有很多事情我们可以花费我们的时间和注意力，但是它将

变得呈指数级地更糟或更好，这取决于你如何看待它。我认为有趣的事情之一是，我非常相信这样一个事实，即市场机制运作得非常好。市场机制不需要一个实际的金融，无论是什么美元市场。它只是意味着制衡机制非常出色。它只是起作用，对吧？比如，

你知道，我记得在过去的十年里，我一直听到关于深度伪造的兴起。是的。它曾经是，你知道，现在是AI，它曾经是Photoshop，无论什么。就像总有一种新技术让它更容易。对于网络安全等等也是如此，对吧？你知道吗？他们都很好。比如，今天的深度伪造非常容易制作。这是一个事实。然而，这也是真的，比如

我们所有人，我们并非所有人都在小心翼翼地尝试弄清楚，我们已经找到了一种解决方法，对吧？噪音中存在足够的信号，如果我在推特或其他地方看到一些奇怪的东西，我至少有这个东西可以告诉我，这是真的吗？这似乎有所帮助，因为你可以，你可以用更多的逻辑或常识来捕捉这些东西。对我来说，这是一种制衡。我认为同样的事情也适用于，

大多数这些可能来自人工智能的大规模干预，改变了世界为人们工作的方式。例如，人工智能使撰写研究报告变得非常容易。好的，这意味着你对研究报告的重视程度可能会上升或下降。很好。但这也意味着你突然有了非常不同的衡量标准、基准和启发式方法来判断这些事情中是否有哪一项对你来说是有意义的。

对。我的意思是，你可以说是有点选择你的战斗。正如你所知，以一种奇怪的方式，作为一个普通人，你应该实际摄取哪些信息是一个不简单的问题，对吧？你的工作是什么？你的工作是阅读人工智能撰写的所有报告吗？这似乎毫无意义。你为什么要那样做？今天，我阅读人们撰写的一些内容，因为我阅读我的团队撰写的内容，因为我

阅读这些内容是我了解他们想要什么的方式。但在未来，如果他们的 AI 撰写了一些内容，而我的 AI 阅读了一些内容并以要点列表的形式总结了我需要知道的内容，那也很好。它改变了速度，但我消费它的方式将在运作方式上与今天有根本的不同。我并不是说这应该是或将会是那样，但我很容易看到

它上升到一个聚合层，对向你而来的信息进行整理。我还想讨论另一个主题，那就是你在关于 AGI 的博文中写到的，那实际上会是什么样子。因为我觉得它有点在回应我们现在正在讨论的内容。对。它是在思考，如果情况继续发生变化，那会是什么样子？

变得更好，变得更好。我们能够利用我们已经看到的益处。其中一个，你对它如何变得更好或可能不会变得更好进行了不同的分解。我喜欢文章结尾的部分，它说，

你提到这可能是一些所有这些的混合。你能解释一下你脑海中这些向量是什么，以及它们如何变得更好或更坏吗？是的，我的意思是，我认为，我应该说我最终写这篇文章的主要原因是，我认为它说的是，一个拥有 AGI 的世界会是什么样子？我认为是那篇。是的，是的，是的。我们对这个未来的世界的大量讨论是否围绕着极端的假设展开？是的。

而极端的假设意味着你几乎可以做出的每一个推断都会化为乌有。例如，一旦你假设，你知道，人工智能将使创造更好的 AI 变得非常容易，以至于我们实际上不会受到能源或资源限制的约束，那么我们就不需要了，对吧？我的意思是，你可以说任何事情，而且根本没有办法证明、证明或反向求解它。

所以我的问题是，我们知道一些基本的约束，除非出现疯狂的突破，这将会发生。但是，至少对于基本情况，我们应该能够观察到这一点，并思考，需要多少电力？多少，你知道，将要制造多少芯片？使用这些东西，我们至少可以反向求解，例如，

即使，你知道，一个 H100 就足以连续运行一个人类水平的智能体，这意味着什么？这好吗？这就像，劳动力市场的变化是什么，或者世界发生了什么变化？这就是我提出这个问题的背景，只是为了做一个基本情况的场景。问题是，你知道，

人们开始谈论数万亿个 AI 智能体在四处漂浮，这必须是……例如，以太坊中没有 AI 智能体，对吧？它们必须运行在某种基板上。所以，如果它们运行在 H100 上，那么 H100 就需要被制造出来。我们现在有更好的芯片了。很好。H100 有一些今天发生的平均功耗。它有……

使用寿命，实际上并不那么长。我认为大约是三年，或者以合理的利用率运行。如果你以 90%、100% 的利用率运行它，寿命会更短，因为存在故障率，对吧？我的意思是，拉马论文谈到了将这些 GPU 连接在一起时非常高的故障率，这很公平，因为世界上的一切都会折旧。为什么这应该是少数几件没有折旧的东西之一呢？所以现在，

你有 GPU 的数量。你有产生的电力数量。你有一些故障率，这意味着你可以从资本支出或运营支出的角度大致了解，运行它需要花费你多少成本？如果你全天候运行它，你大致在谈论多少个智能体？这就是我试图做的数学计算。我认为我得到的结果是大约，我不知道，4000 万个全职智能体，考虑到所有这些假设。

这样做并不是为了说这个数字太高或太低，甚至太准确。但关键是要说，看，如果这 4500 万需要变成 450 亿，那么这些假设就需要被打破。对。如果一个 AI 智能体的运行效率突然像人类一样，只有几瓦，那么它就会被打破。但是猜猜怎么了？我们需要到达那里。这是一个需要打破的基本约束。

或者我们需要说，世界经济的很大一部分基本上变成了芯片和能源。它必须如此。没有办法。对。我的意思是，想想看。如果你增加了一个额外的，如果你将全世界的劳动力翻倍，那将是一个重大的转变。但我们之前已经将全世界的劳动力翻倍了。这很好。这并不意味着我们所有人都会失业。对。这根本不意味着那样。这意味着我们在其他地方找到了新的工作。

如果你把它增加到三倍，我们仍然会找到新的工作，因为每个人都有足够的事情可做，将劳动力增加三倍并不一定意味着我们会陷入反乌托邦。所以我认为结论是，我们受到某些非常清晰、非常强大的物理资本支出投资的瓶颈，缺乏更好的词语。

其中一些事情正在变得更好。我有一些关于，我认为我假设这些数字在从 03 年到在 H100 上运行 AGI 或其他什么东西时提高了 1000 倍。但如果你想弄清楚世界实际上会是什么样子，那么你需要做出这些推断。而不是假设结论，也就是说，如果芯片变得，你知道，强大一百万倍，便宜一百万倍会怎么样？好的，但是

你必须把它推过去，对吧？从某种意义上说，制造今天的芯片需要 ASML 来制造某些光刻机，而他们只能制造这么多。如果他们能够制造出来，而 DSMC 能够制造一定数量的芯片。原子世界不是无限弹性的。你必须选择它来自哪里，并弄清楚它通向哪里。还要回答这个问题，比如，嘿，是……

你知道，世界 GDP 的很大一部分用于创造半导体和能源是否是一个可持续的平衡。我不确定是不是。我们都乐于看到英伟达的股价上涨，但是，你知道，它已经达到 3 万亿美元了。当它达到 100 亿美元时，我们高兴吗？我不知道。当它达到 200 亿美元时，我们高兴吗？在某个临界点，我们会说，这是太大的百分比了

经济投入到一家公司或一个行业中，对吧？我的意思是，这就是所有 S 曲线最终弯曲的方式。我只是想围绕着这个弯曲周期画一条线。是的。然后你提到了有多少不同的部分。是的，它可以在这里变得更好，或者它将运行在 H100 上的假设可以是一个假设。也许我们把它降低，它都运行在我们的 CPU 上，但我们仍然需要

这些其他的……如果我们试图制定这些方案，我们仍然需要考虑瓶颈以及我们将面临哪些不同的瓶颈。正确。瓶颈不会因为我们想要它们消失而消失。我认为它们存在。它们会移动，但它们 100% 存在。而

世界经济的故事一直是，我们不断发现新的瓶颈，突破这些瓶颈，然后进入下一个瓶颈，这就是为什么尽管对每个单独的部分都付出了指数级的努力，但我们实际上仍然拥有某种线性的增长曲线。是的，所以现在你听到很多关于瓶颈是能源、芯片和 GPU 的说法。我还听到一些人来到这里说，瓶颈不一定是 GPU，而是 GPU 上的内存。

是瓶颈。所以人们正在努力寻找巧妙的方法来打破这种局面。假设我们像你说的那样，在 GPU 上实现了扩展，我们必须看看需要采取哪些步骤才能实现这一点。我知道现在有很多投资正在投入到这方面，但是这些事情

将持续几十年。是的，我认为投资可以告诉你一些关于我们需要做什么才能将边界向前推进一点的信息，例如，一个额外的数位中心、一个新的核电站、10 万个新芯片所需的工作量，这仅仅表明，当你处于边缘时，数字会非常快地变得非常大。

是的，然后你怎么……我真的很喜欢这个想法，你怎么判断足够多是多少，或者太多是多少？那是什么样子，你会说，好吧，我们真的想把这个国家一半的 GDP 投资到这个大赌注上吗？是的，我的意思是，我认为我们不会……这是那些我们直到撞到它才知道的事情之一。但最终，就像……

你知道，现在一切都在向上和向右发展。投资正在结出果实，我们显然能够利用这些工具获得惊人的成果。即使我们将这件事推断出去，我们对可以持续承担的投资额与我们可以持续利用的产出额之间也存在限制。这就像，这是这两者之间持续的争斗，对吧？为了让我们到达未来，我完全相信我们会到达，但这只是，你知道，我们……

如果你相信其他事情，那完全没问题。但是，就像，我们需要用一些类似的假设来证明它，例如，这就是我期望它可能发生的事情。然后你必须证明这一点。而证明不能仅仅是，或者也许是，嘿，不，人工智能会让一切，你知道，便宜一百万倍，这就像，如果这是一个证明，那么让我们来谈谈它。但对我来说，这有点像避开问题，对吧？你假设了结论。是的。

而且它非常含糊，而且没有根据，因为我不知道你怎么样，但人工智能并没有让我的生活中的很多东西变得更便宜。对。我现在在订阅上的花费比以往任何时候都多。有很多 AI 订阅需要花钱。所以，是的，这很有趣……

就像你说的那样，有点含糊其辞，认为仅仅因为我们有了人工智能，我们就会看到更多的生产力，而且它会让我们的职业生活更轻松。

更便宜，或者它会让我们在职业生活中需要完成的事情更便宜。正确。我认为，你知道，我们必须努力做到这一点。我认为看待当前深度学习的一种方式是，至少在我看来，这可能不是第一次，但这就像第一次主要的时间，效率是一个，甚至作为一个 KPI 出现，而不是性能。是的。

是的。是的。因为我们一直在投入我们需要的一切。正确。为了获得性能。但现在我们正在考虑，哦，我们能否在没有空白支票的情况下获得这种性能？正确。正确。这有影响，对吧？如果你有能力做到这一点，这对你可能期望在未来获得的东西有一定的影响。

以及我们如何能够再次调整你谈到的那些不同的向量，或者至少只是意识到它们。正是如此。而且看，事情变得更高效本身就是其中的一部分。但是当 GPT-4 发布时，GPT-4 级别的模型比今天的成本要高得多。然而，有……

当我们学习如何更好地完成这些事情时，由于进一步的进步，成本自然会下降。你必须考虑这一点，而不是如果你认为这种趋势将被大幅打破，并且会出现不连续性，那么需要评估或分析这一点。现在，事实是，即使是过去几年发生的成本下降的当前趋势，如果你将其推断到未来 10 年，你可能会开始看到一些非常疯狂的数字。

我不知道这是否可行，但这实际上是问题的关键。这些事情的临界点是什么时候？摩尔定律持续了，我甚至不知道有多少个数量级。所以它持续了很长时间，对吧？太阳能电池价格的下降持续了非常大的数量级，多个数量级。这是我可以继续保持下去的事情之一吗？也许吧，但我们可以回到这个问题，我们能否

在 CPU 上运行 O3 级别的模型，并反向工作以获得一些答案。好吧，告诉我你除了做一个完全的哲学家之外，每天都在做什么。我知道你有一家公司。我很想了解更多关于它的信息。

我很乐意。所以日常工作，就像我花时间做的事情一样，我是 Bodo、Bodo AI 公司的首席产品官，这不会让任何人感到惊讶。Bodo 基本上是如果你想使用 Python 进行数据工程和数据分析的最佳方法。这是最简单的说法。所以你有

大型数据集，你想对其进行任何类型的分析或工程，转换、处理、预处理，等等，那么与其使用任何外部工具，例如，你知道，Spark 或 PySpark 或其他任何东西或 Dask，你只需在 Python 中完成它，我们就能做到这一点。所以我们比市场上几乎任何其他产品都快得多、效率高得多、易用得多。我们最近开源了，这是我们面前的一个大……

大障碍。所以对此感到非常兴奋。很好。恭喜。谢谢。是的，这已经酝酿了一段时间了。所以，我们终于很高兴能够把它发布出来。我们的目标是让尽可能多的人尝试并玩弄它、使用它，了解我们已经发布的示例，查看我们发布的基准，敲打它，找出它在哪里崩溃，以及

基本上让 Python 世界再次伟大，你知道吗？因为在过去几年里，Python 已经成为几乎所有东西的通用语言，尤其是人工智能。但是如果你想用 Python 做任何硬核数据方面的工作，你最终需要跳出来使用其他东西。我们只是想打破这个循环，并将其保留在 Python 内部。因为这也意味着更多的人可以参与和参与其中。

所以你说的基本上是数据框？正确。所以我们，如果你在，我不知道，Pandas、NumPy、任何东西、scikit-learn 中工作，它会变得快得多。我认为你可以在我们的 repo 中看到一些基准，但是数字非常荒谬。就像，

快 20 到 250 倍，这取决于你与什么进行比较。哇。这很重要，因为最终如果你想训练一个 AI 模型，对吧，你从一堆通常在某个地方乱放的原始数据开始，然后需要

处理、清理、训练、标记化，等等。就像有一组，你知道，去重。在你准备好将它放入 PyTorch 并点击 train.py 之前，你需要对数据做一些事情。这是最麻烦的部分，需要最多的努力，需要最多的，这是最痛苦的。如果你能让这部分更快，那么我认为它将非常有用，不仅对我们或人工智能有用，而且对

全世界的数位工程都有用。我认为这是目标。同意。这很有趣，你提到了这一点，因为我在我们最近与我朋友 Floris 进行的播客中听到过，他最近称自己为 AI 工程师，但他来自数据科学、ML 工程领域。我说，好吧，有什么区别？你

脑海中有什么东西让 AI 工程师与 ML 工程师不同？他说，好吧，我现在做很多软件工程，而且我

我有一些提示，我有一些评估。但这主要是软件工程。当我认为自己是 ML 工程师时，它有很多数据方面的工作。所以那些数据处理、那些数据管道，那是他每天的工作。我的意思是，即使你身处 AI 工程领域，

你仍然必须这样做。它只是，有时它会被其他人为你抽象出来，他们已经完成了这项工作。例如，如果你考虑一下，你知道，几年前是什么？红色睡衣数据集，就像世界上存在很多这样的东西，对吧？或者，

所有这些实际上都是你仍然必须付出努力才能达到可以使用它进行 AI 训练的程度的事情。我认为我们有一个非常棒的例子，可以使用 the pile，这个大型训练语料库。只是为了展示你如何以不同的方式预处理它。而且，我认为我们目前正在进行基准测试，以将其与其他现有的大型场景进行比较。

竞争对手和其他存在的东西来做数据工程工作。这就是你的朋友正在谈论的问题的关键。当然，我只能想象你是一个产品人员。你认为你一天有多少次会考虑如何将 AI 添加到产品中？别让我开始。很多。

在各个方面，从我们自己使用它，到让我们更紧密地结合到各个领域的各种 AI 用例。尽可能多地，对吧？因为如果你自己使用它，它会增强一切。我相信这个世界，正如你所知。所以它就像，它不会消失。他们……

有不同的方法可以插入它。我喜欢这个想法，只是把它带到那个世界。或者你可能添加一个 AI 功能，可能是一个功能，你帮助人们去重，或者你帮助人们在产品内部做他们需要做的事情。那么你怎么看待呢？

对我们来说，核心问题是，有一组用例，我们可以直接帮助解决这些问题。所以这是经典的一个。我们正在做这件事，你知道，就像我说的那样，对数据进行预处理。我们甚至可以加快或并行化 LLM 推理，这是我们发现的一个有趣的事情，因为它是一个，Boda 建立在 HPC 上，就像，你知道，MPI 技术。所以实际上我们可以并行化推理调用，这是一个我们发现的非常好的事情。但是，是的，

另一方面是，从 AI 的角度来看，人们如何实际利用我们的产品或我们的 repo，我们能否让它更容易？我在这里告诉你一个例子，我们正在研究的是，我们能否创建一个备忘单，我们可以将其提供给我们在网上与之交谈的任何 AI？

或与之交谈，说，你能让这段代码与 Bodo 兼容吗？这正是我们正在研究的事情，因为实际上，如果你相信未来将包含更多 AI 实际工作，那么猜猜怎么了？自述文件和那些文档的重要性会大幅上升。是的。那将是一个很好的，这是一个例子。是的。我刚和我的朋友 Fausto 谈到这个，他说希望，

现在或很快，PDF 将包含一个 LLM 可读的元数据部分。那将是美好的。我的天，PDF 是许多人生活中最大的祸害。我同意。尤其是在你试图摄取它们或试图使它们

解析 PDF 仍然是世界上仍然存在的最主要问题之一，这很奇怪，但这是真的。太奇怪了，太难了。问题是，解析它们，然后保留上下文，或者如果有表单。我知道很多在金融领域的人，他们说他们非常努力地使用 LLM，但是 PDF 是……

最难的领域。如果他们能够绕过解析 PDF 的部分，那么一切都会顺利得多。所以我完全同意这一点。你感觉必须有一个新的标准。希望我们能够从现在开始向 PDF 添加元数据，以便

LLM 更容易理解。是的。我认为这是，我的意思是，我认为我们会到达那里。我认为 Jeremy Howard 开始做这件事，向每个网站添加 LLMs.txt，以便更容易抓取。我觉得类似的事情也会发生在许多其他现有的格式上，因为最终，如果这就是你阅读信息的方式，那么你必须让 LLM 更容易使用，伙计。我的意思是，否则真的很难。是的。

如果你想让 LLM 阅读它，因为这是另一个哲学观点，就像，我想让 LLM 获取我所有的 SKU 和类别以及我作为平台辛辛苦苦汇总的所有内容吗，这个电子商务平台？然后如果我只是把它交给 LLM，那会让我的护城河

我认为这是一个经典的问题，但我感觉即使你不想让它泄露出去，你可能仍然想这样做，以便你的内部 LLM 可以阅读它并让你的生活更轻松。所以在某种程度上，我认为这里没有一个行得通的可扩展的卢德派防御，对吧？我的意思是，你需要……火车只有一个方向。是的。好吧，我们对此进行了一次完整的……

小组讨论，因为那个世界是什么样子的，是谷歌代理然后调用你的平台或任何电子商务代理，还是谷歌代理端到端地进行，或者是在你访问谷歌之前，你的笔记本电脑上已经有你自己的代理

我的意思是，它可能是任何一种，在某些方面，你可以很容易地看到它可能是上述任何一种。我觉得，我现在觉得代理还不够强大，无法自主部署。但是如果你用，比如，情境感知函数调用来代替代理，那么 100% 会发生这种情况，对吧？任何进入我的笔记本电脑的信息或任何进入你的服务器的信息，如果你是谷歌的话，对吧？

你可以有一个函数，就像你可以有一个上下文感知的调用来弄清楚你想用它做什么，或者主动地以及被动地。我认为这将改变我们实际处理这些事情的方式。♪

The Unbearable Lightness of Data // Rohit Krishnan // #295 54:16 Share

MLOps.community

Deep Dive

Shownotes Transcript

The Unbearable Lightness of Data // Rohit Krishnan // #295