We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

The evolution and promise of RAG architecture with Tengyu Ma from Voyage AI

2024/6/6

No Priors: Artificial Intelligence | Technology | Startups

AI Deep Dive AI Insights AI Chapters Transcript

People

Tengyu Ma

Topics

Tengyu Ma: 本人研究涵盖深度学习多个领域，从理论到实践应用，目前专注于提升大型语言模型的效率和推理能力。认为未来AI发展需要提高数据和计算效率，并重点关注推理任务及其应用。研究经历了从矩阵补全、嵌入模型到Transformer和对比学习的演变，致力于优化大型语言模型的训练效率，开发的优化器SOFIA能将大型语言模型的预训练效率提高2倍，在百亿参数规模的模型训练中效率提升1.6倍。认为将AI技术商业化的时机已成熟，因为基础模型的出现简化了AI在行业中的应用。Voyage AI主要构建用于改进检索系统质量的重排序器和嵌入模型，因为在RAG系统中，检索质量是影响响应质量的关键瓶颈。RAG系统通过检索步骤和生成步骤，利用公司内部知识来生成更准确、无幻觉的答案。RAG的应用范围广泛，几乎涵盖所有领域。与微调相比，RAG更容易实现且更准确，并能有效减少幻觉。从成本和效率角度，RAG优于长上下文Transformer，因为RAG类似于长时记忆，而长上下文Transformer类似于短时记忆，RAG的层次化结构使其更有效率。代理链技术与嵌入模型和重排序器是正交的，两者可以结合使用。改进RAG系统的方法包括改进大型语言模型的提示方式以及提升检索质量，后者可以通过改进嵌入模型和使用软件工程技巧来实现。领域特定微调可以提高嵌入模型的性能，因为有限的参数需要针对特定领域进行优化。嵌入模型的维度会影响向量搜索的延迟，因此需要在延迟预算内找到最佳的维度。构建RAG系统时，应尽早关注检索组件的投资，并通过性能分析确定瓶颈。随着大型语言模型的改进，RAG系统将变得更简单，组件数量更少，并且对数据格式的要求更低。学术界在AI领域应专注于长期创新和具有挑战性的问题，例如推理任务。 Sarah: 引导访谈，提出问题，并与Tengyu Ma进行讨论。

Deep Dive

Key Insights

Why did Tengyu Ma decide to start Voyage AI after his academic research?

He felt the timing was right for commercialization as AI technologies had matured, making it easier to apply AI to industry with foundation models. The process of applying AI had become much simpler, requiring only prompt tuning and retrieval-augmented generation (RAG) on top of pre-trained models.

What is the main bottleneck in implementing RAG systems according to Tengyu Ma?

The quality of the retrieval part is the main bottleneck. If the retrieved documents are relevant, the large language model can synthesize good answers, but poor retrieval quality significantly impacts the response quality.

How does Tengyu Ma compare RAG to long-context transformers in terms of cost efficiency?

RAG is much cheaper than long-context transformers because the latter requires storing all intermediate computations for large contexts, which can be prohibitively expensive. RAG, being a hierarchical system, is more cost-efficient as it retrieves only relevant information for each query.

What are the two main ways to improve RAG systems according to Tengyu Ma?

One is to improve the neural networks, such as embedding models and re-rankers, which require heavy data-driven training. The other is to improve the software engineering aspects, like better data chunking, iterative retrieval, and incorporating metadata.

How does domain-specific fine-tuning improve embedding models in RAG systems?

Domain-specific fine-tuning allows embedding models to excel in particular domains by customizing the limited number of parameters to focus on specific tasks. This can lead to improvements of 5% to 20% in retrieval quality, depending on the domain and the amount of data available.

What advice does Tengyu Ma give to companies building RAG systems?

He suggests starting with a prototype and immediately profiling both latency and retrieval quality. If retrieval quality is the bottleneck, companies should consider swapping components like embedding models or re-rankers to improve performance.

What does Tengyu Ma predict for the future of RAG systems as LLMs improve?

He predicts that RAG systems will become simpler, with fewer components and less need for complex software engineering. Embedding models will handle multi-modality and data formats more effectively, reducing the need for manual preprocessing.

What role does Tengyu Ma believe academia should play in the AI industry?

He believes academia should focus on long-term innovations and research questions that industry may not prioritize due to short-term incentives. This includes working on efficiency improvements and challenging reasoning tasks that require innovative approaches.

Chapters

Tengyu Ma's research spans various deep learning fields, focusing on theoretical understanding and practical applications. His recent work centers on improving the efficiency of training large language models and enhancing their reasoning capabilities. He highlights the importance of efficient data and compute usage due to resource limitations.

Focus on theoretical foundations and practical applications of deep learning.
Emphasis on efficiency in training large language models.
Development of the SOFIA optimizer, resulting in significant training efficiency improvements.

Shownotes Transcript

滕宇在斯坦福大学潜心研究AI优化、嵌入模型和Transformer多年后，离开学术界创立了Voyage AI，为企业客户提供最准确的检索服务，并利用最有用的基础数据。在本周的No priors播客中，滕宇与Sarah一起讨论了为什么RAG系统正在成为企业中占主导地位的架构，以及使RAG蓬勃发展的基础数据的演变。虽然微调仍在讨论中，但滕宇认为，RAG将继续发展成为最便宜、最快捷、最准确的数据检索系统。他们还讨论了扩展上下文窗口和管理延迟预算的方法，滕宇的研究如何影响他在Voyage的工作，以及随着AI作为一项产业发展，学术界应该发挥的作用。节目链接： Voyage AI 斯坦福大学计算机科学助理教授滕宇主要研究论文： Sophia：一种用于大型语言模型预训练的可扩展随机二阶优化器机器学习的非凸优化：设计、分析和理解具有谱对比损失的自监督深度学习的可证明保证更大的语言模型以不同的方式进行上下文学习，2023 预训练语言模型为什么有助于下游任务？对头部和提示微调的分析张量分解的优化格局每周注册新的播客。将反馈邮件发送至[email protected]在Twitter上关注我们：@NoPriorsPod | @Saranormous | @EladGil | @tengyuma节目笔记： (0:00) 介绍 (1:59) 滕宇研究的关键点 (4:28) 学术界与产业界的比较 (6:46) Voyage AI概述 (9:44) 企业RAG用例 (15:23) LLM长期记忆和标记限制 (18:03) 代理链和数据管理 (22:01) 改善企业RAG (25:44) 延迟预算 (27:48) 建立RAG系统的建议 (31:06) 作为AI创始人的经验教训 (32:55) 学术界在AI中的作用</context> <raw_text>0 欢迎收听No Priors。今天我们采访的是滕宇，他是斯坦福大学计算机科学助理教授，也是Voyage的联合创始人兼首席执行官。Voyage训练用于下一代检索系统的最先进组件，包括嵌入模型和重新排序器。我们非常高兴今天能讨论他的研究和RAG辩论。欢迎，滕宇。是的，非常感谢。感谢邀请我。

我们期待这场辩论。是的。不如我们先从您迄今为止的研究议程概述开始吧？因为我认为它独特地涵盖了深度学习内部和周围的广泛领域，从理论到强化学习，再到嵌入和优化器。您能否谈谈您是如何选择研究方向的？

是的，我认为我写的大部分论文都包含一些理论思考。我想这可能是共同点。除此之外，我认为我研究了相当多的主题，正如您提到的那样，范围从对深度学习系统的理论理解、数学证明，

到实际的大型语言模型、强化学习、深度强化学习。最近，我认为我们正在研究更多的是大型语言模型训练的效率以及改进大型语言模型的推理任务。

我的愿景是，未来效率非常重要，因为我们正在耗尽数据和计算资源。因此，我们必须更好地利用数据和计算资源。推理任务似乎也是一个非常重要的方向，也是应用方向。

从某种意义上说，这是一种冒险的方向，因为我们还不知道我们能以多快的速度解决这些具有挑战性的推理问题。您能否提及您或您实验室的学生完成的一些关键论文或工作，以便我们的听众可以查找它们？

在早期，我认为我研究过一些矩阵补全、矩阵补全的优化问题。那是大约10年前的事了。然后我转向嵌入模型，例如句子嵌入、向量嵌入。我们写过一篇非常简单的论文，我们对词嵌入进行平均以获得句子嵌入。然后我们使用PCA进行了一些转换，以使性能更好。那甚至是在Transformer出现之前。

然后我认为我转向了Transformer、大型语言模型和对比学习，这是训练嵌入模型的一种新方法。特别是这个方向始于一些关于将对比学习用于图像的论文，我们致力于改进这些论文并理解为什么对比学习有效。

最近，我们研究了大型语言模型的优化器。例如，我们去年发表的一篇论文是SOFIA，我们发现我们有一种新的优化器，可以将预训练的训练效率提高2倍。这太棒了。Adam现在已经很老了。

是的，它已经有10岁了。我认为这很有趣。所以优化器，你知道，我认为在过去的10年里，人们尝试过很多次，发表了这么多论文，嗯，在各种情况下都比Adam有所改进，但到目前为止，Adam仍然是训练大型英语模型的默认算法。这就是为什么我们认为是时候了，呃，

真的，我们花了大量时间在这个上面。我想我可能从2018年、2019年左右就开始研究了。我让几个学生研究这个问题。最后，经过几次失败的项目和失败的想法后，我们发表了一篇论文。最近，我的一位Facebook朋友

实际上在他们的大规模多模型训练中使用了它。他们发现，在这个规模上，我不知道确切的参数数量是多少，但我假设它超过了1000亿个参数。他们发现，在这个规模上，训练效率提高了1.6倍。这就像1000万美元对1600万美元。

这太令人兴奋了。是的，我认为，你知道，Sophia有机会产生真正、真正重大的影响。你去年从斯坦福大学休假创办了一家公司。鉴于你的工作一直是理论性的，但有实际应用的背景。

实际应用？是什么促使你这么做的？我认为我来斯坦福大学的部分原因是，与其他一些大学相比，斯坦福大学与产业界的联系非常紧密。而且创业可能也是我职业规划的一部分。至于时机，我觉得现在是合适的时机，因为

技术越来越成熟，因此商业化似乎是现在合适的时机。例如，我认为我有一个故事，你知道，我查阅了我的一些

七年前我开始在斯坦福大学任教时，为我的斯坦福大学CS299讲座准备的资料。那时，机器学习，我们与Chris Ray一起做了一场关于应用机器学习的讲座。那么，你如何将机器学习应用于产业界呢？

那里有七个步骤。第一步是定义你的问题。第二步是收集你的数据并选择损失函数，你训练它并迭代等等。那时它相当复杂。现在基础模型应运而生。在新基础模型时代，你唯一需要做的是，你知道，有人会为你训练

基础模型，然后你调整提示，并在其之上添加检索增强生成，这就差不多了。因此，将机器学习AI应用于产业环境比七年前容易得多。这就是为什么我觉得现在可能是将许多技术商业化的正确时机，因为这些技术已经更加成熟。

是的，这实际上是，我的意思是，即使对于我创办的投资基金来说，这也是一个核心前提，你知道，有人以更通用的方式为你做了大部分工作。因此，AI在产业中的应用要便宜得多，对吧？因为你只需要做，你知道，最后几步，或者不同的集合，但本质上是最后几步。所以也许你可以谈谈，你知道，鉴于广泛的研究，你在Voyage关注的问题。

你在客户那里看到的？是的，在Voyage，我认为我们主要构建这两个组件，重新排序器和嵌入，以提高检索或搜索系统的质量。

我们之所以关注这一点，是因为我们与许多客户进行了交谈，我们发现，现在要实现Rack，瓶颈似乎在于实现它并不难。你可以快速连接组件并准备好你的Rack系统。但瓶颈似乎在于响应的质量。响应的质量是巨大的。

严重受到影响，或者说是几乎被检索部分的质量所限制。如果大型发射模型看到非常相关的文档，那么它们就可以合成非常好的答案。即使是LAMA-70B也能做得很好。你能否对RAG系统是什么以及它的一些应用提供一些一般的直觉？

是的，我想先介绍一下背景。所以检索增强生成，其思想是存在检索步骤和生成步骤。所以这里的要点是，如果你只是将大型语言模型用作黑盒，你知道，按原样使用，那么大型语言模型将不知道公司内部任何专有信息。它对用例的了解也不够。

检索增强生成堆栈是关于你首先从例如公司内部检索一些知识，然后使用这些知识并将知识提供给拉丁古什模型，以便拉丁古什模型可以生成或合成一个没有幻觉的好答案。这已被发现对降低幻觉率非常非常有用。

所以有两个步骤。第一步是根据查询检索一些相关信息，然后将这些相关信息提供给大型语言模型。检索步骤很重要，因为一旦大型语言模型看到相关信息，它就可以显著降低幻觉率，因为它在某种意义上使用相关信息作为锚点来细化答案。

而我们在这里所做的是，我们想要提高检索的质量、相关性或检索到的文档和信息的准确性。实现此目的的方法有两个步骤。第一步是将所有文档或所有知识库向量化。因此，你将文档转换为向量，将视频转换为向量。你将代码转换为向量。代码转换为向量，所有内容都转换为向量。

因此，向量是每一部分知识或文档以及所有其他索引的表示。然后，你将这些向量放入向量数据库，然后使用向量作为索引来搜索相关信息。你在哪里看到RAG的应用？例如，客户正在构建什么，或者，你知道，最常见的系统是什么？

是的，我们有很多用户，他们遍布各地。我认为，你知道，我们甚至有一个客户是一家化学公司，他们正在构建这个rack系统来理解他们的化学文档或产品描述。

我认为它几乎无处不在，例如金融、法律、代码检索、代码生成等等。我认为它几乎可以应用于任何案例，甚至可以应用于个人用户，他们拥有大量个人信息。

并且想要在手机上拥有一个rack系统，以便他们可以更轻松地访问过去的信息。例如，我们都看到，当你在笔记本电脑上搜索文档时，实际上非常困难。你必须使用确切的文件名。如果这个搜索可以基于语义，那就容易得多了。

RAG是一种相对较新的架构。我认为，在过去一年左右的时间里，你平均的企业技术领导者都没有听说过这个术语，它在过去几年里才在研究人员中流行起来。但是，我认为已经存在一场辩论，你知道，来自不同大型实验室和学术界的人们的观点，关于是否

你需要一个RAG架构来处理专有数据。为了描述一些替代观点，我认为有两种替代观点。一种是某种代理链架构，你将你的数据和知识（化学、代码、法律、金融，任何相关的文档）输入到一系列LLM中，这些LLM只是对其进行指令操作，例如总结或分类。或者你只需将所有内容都输入到具有无限上下文或主动管理上下文的LLM中，而无需显式向量化任何内容。所以我很想听听你对此作为RAG替代方案的看法。实际上，去年也有一场关于RAG与微调的辩论。是的。

我认为这场辩论现在已经达成了某种共识。听起来RAC比微调容易得多，而且在许多情况下，微调不起作用，因为你需要大量数据才能看到结果，即使在微调之后仍然存在幻觉。现在，正如你所说，这场辩论变成了RAC与代理链或长上下文。所以也许我们先谈谈长上下文。

所以，我，

我认为从不同的角度来看，可能有两种答案，因为现在的长上下文还不实用。所以我们必须在某种意义上预测长上下文Transformer能做什么，然后在未来某个时间进行辩论，或者预测未来某个时间的辩论。在短期内，我认为长上下文Transformer，你只需将所有专有数据（10亿个标记）放入Transformer的上下文中。

将会非常非常昂贵，对吧？如果你使用现在的价格，这将是不可能的。这可能是5到10个数量级的差异，这取决于你在上下文中拥有多少文档。

当然，你可以通过例如缓存你放入上下文的所有文档的内部操作的激活来降低成本。这样可以大大降低成本。但我认为，如果你进行理论计算，它仍然比RAC贵得多。

所以我认为这是更实际的答案。因此，就成本而言，它将比RAC贵得多，因为你必须将所有这些激活或中间计算保存在GPU内存中，很可能是在CPU内存中，所有10亿个标记的上下文都是如此。

你可能会争辩说，好吧，随着时间的推移，一切都会变得越来越便宜，但RAG也会变得更便宜，对吧？因为RAG下的许多技术都是基于神经网络的，GPU会变得更便宜，神经网络会变得更小。所以我预测，RAG将比未来的长上下文便宜得多。

另一种思考方式是，也许只是从第一性原理出发，对吧？所以我对日志上下文的类比是，所以从某种意义上说，上下文在某种意义上是短期记忆，对吧？而reg更像是某种意义上的长期记忆。所以问题是，例如，你知道，当你回答任何问题时，为什么你每次都必须浏览整个图书馆，对吧？像一个

并将整个图书馆都放入你的短期记忆中来回答一个问题，对吧？听起来正确的方法应该是，对于每个问题，你检索一些子集的信息，并使用这些信息来回答问题。这似乎是最有效的方法。

在某种意义上，应该有一些层次结构，就我们如何解决问题而言，这样我们才能获得最佳效率。即使我们在进行计算机架构，例如硬件方面的工作时也是如此，对吧？所以你有多个级别的缓存，对吧？所以你有磁盘，你有CPU缓存等等。所以从这个意义上说，我觉得更像RAC这样的分层两级系统更具成本效益。是的。

是的。我的意思是，这个类比当然是有道理的。我认为还存在另一个讨论主题，即LLM的长期记忆是什么样的，你知道，它是由LLM本身管理的。但我认为这不是一个得到很好解答的问题。而RAG可能只是

答案的一部分？所以嵌入模型、重新排序器在某种意义上是管理长期记忆的大型语言模型。当然，可能存在变体和其他管理长期记忆的方法，但我认为它将有点相似。它将更像

你知道，技术总是在发展，对吧？逐渐地，对吧？所以也许两年后，Voyage或者其他公司将拥有一个新的长期记忆版本，它基于，你知道，嵌入模型，但是，你知道，以某种方式扩展嵌入模型。这是完全可能的。

是的，我认为将那些每天不处理LLM规模数据源的人的情况考虑在内是有用的，例如标记限制是什么，对吧？你知道，我们从几千个标记到像

Gemini 1.5 Pro的上下文窗口有100万个标记，对吧？所以如果这在字数上是短的，那可能是五本书或大约2.5万到3万行代码。

显然，像有限数量的视频和音频。所以我认为能够对超过此数量的数据进行推理决策将是必要的。对我来说，问题实际上是，你知道，效率是否重要，从成本角度和速度（延迟）角度来看？是的。

对。你能将上下文窗口推到多远？你知道，幻觉管理是否重要？所以我认为有很多论据表明RAG在这里非常持久。

是的，是的，完全正确。并且补充一点。所以100万个标记，5本书，对吧？所以许多公司有1亿个标记。这是100倍的差异，对吧？所以100倍，你知道，对于成本来说是一个很大的差异。这可能只是，你知道，10万美元对1000万美元，对吧？1000万美元是……

可以接受的，但10万美元听起来还可以。是的，我认为这可能是会发生的事情。例如，至少对于许多公司来说，对吧？所以现在，如果他们有1亿个标记，我认为他们根本无法使用长上下文Transformer，因为它太贵了。是的。

对。我喜欢最简单的事情，实际上是让系统查看整个代码库或整个代码库的某种表示，而不是今天可以放入上下文的那一部分。那么另一部分呢，例如使用LLM以这种形式管理数据的代理链的想法呢？

所以代理链，这是一个不断发展的领域，许多人都在研究它。我认为它在某种意义上有点不太明确。在第一层上，我会说它在某种程度上与嵌入模型和重新排序器是正交的，因为即使你有了代理链，你仍然可能更多地使用嵌入模型。

作为链的一部分，对吧？你可能将迭代检索作为链的一部分。当然，你也会使用大型语言模型作为链的一部分。从某种意义上说，这是一个正交的方向。所以我可能会将代理训练重新表述为更像迭代多步骤

检索，大型语言模型增强的系统。所以这部分检索可能是由大型语言模型完成的，有时系统的一部分是由小型大型语言模型完成的，系统的一部分是由嵌入模型完成的，等等。所以从这个意义上说，我觉得它有点正交。

是的，我觉得代理链最初的动机与RAC的效率动机相同。是的，完全正确。但是如果你使用一个非常非常大的语言模型来管理系统，知识系统，我认为你，再次，会失去效率，对吧？所以它必须是一个稍微小一点的模型来管理……

知识。然后在这一点上，嵌入模型可能是代理训练框架中正确的事情。也许从另一个角度来看，我们应该进行迭代检索还是一次性检索。我认为迭代检索绝对有用，尤其是因为现在嵌入模型的性能仍然有很多空间。这就是为什么有时你必须多次检索，因为模型不够聪明。

然而，从长远来看，我的怀疑是迭代检索将是有用的，但如果嵌入模型变得越来越聪明，它将变得不那么有用。因此，一旦嵌入模型变得更聪明，那么一轮或两轮就足够了。

如果我们假设RAG至少是企业用例的主导架构，你关心的是大型且可靠的专有数据，那么你如何改进RAG系统呢？你可以改进LLM本身，但是你们正在研究的其他组件是什么，或者从用户的角度来看，构建者的角度来看，改进检索质量的挑战是什么？是的。

是的，我想有几种方法，对吧？一种方法是改进大型语言模型的提示。例如，如果检索到的文档中没有相关信息，你可以告诉大型语言模型放弃。但是由于大型语言模型现在如此优秀，我认为你不再需要很多提示了。它对指令的响应非常好。

然后是改进检索部分，我认为这是瓶颈，因为我们的大多数用户发现，如果他们直接提高检索质量，就会影响响应质量。改进检索部分，我认为有两种方法。一种方法是改进嵌入模型。一种方法是在此基础上改进其他一些东西。例如，你如何截断数据，你是否进行迭代

检索，你是否在数据中放入一些元信息等等。所以基本上我会说有两种改进方法。一种方法是改进神经网络，无论是嵌入模型还是重新排序器，或者改进使用网络的软件工程方法，对吧？更好的截断迭代或其他类型的启发式方法或技巧。

所以，我们的专长是改进网络，因为这需要大量的努力。这是一种非常数据驱动的方法。我们至少对数万亿个标记的网络进行训练，并针对特殊用例对其进行微调。这可能是公司应该做的事情，而不是像每个最终用户应该自己优化那样。

而我的长期愿景是，当网络越来越聪明时，网络之上的某些软件工程层将越来越不需要。例如，我们现在已经看到，由于上下文窗口越来越长，截断变得不那么必要了，并且长上下文嵌入模型，你知道，

相对较长的上下文嵌入模型。这里的长上下文是指例如1万个，也许是1.6万个，这样你就可以将50页的PDF放入其中。因为这个长上下文嵌入模型变得更好，所以将文档截断成5个、12个标记的片段的需求减少了。并且

我认为这也会发生在其他维度上。所以也许将来，你不再需要将你的图像转换为图像描述，然后将其提供给文本嵌入模型。这就是人们现在正在做的事情。所有内容都转换为文本，他们使用文本嵌入模型。但是当嵌入模型更聪明且是多模式的时，你就不必再那样做了。

你能谈谈微调或特定领域嵌入如何提高性能的直觉吗？是的，微调和特定领域嵌入模型是我们Voyage非常擅长的。所以这里有一些背景。我们所做的是，我们从一个通用的基于嵌入的模型开始，这也是我们从头开始训练的。

从那里，我们首先在一些特定领域的数据上进行微调或继续预训练，无论你称之为哪种。例如，我们在数万亿个代码片段标记上进行微调。

然后我们得到代码嵌入模型，并在1万亿个法律标记上进行微调。这就是我们获得法律嵌入模型的方式。这个特定领域的嵌入模型，我没有使用任何专有数据，这样每个人都可以使用它们，但它们在一个特定领域确实非常出色，并且在其他领域的性能没有太大变化。我们之所以这样做，是因为嵌入模型中的参数数量是有限的。

所以，因为你只有一个延迟预算，例如可能是一秒钟，有时是200毫秒，你知道，有些人甚至想要50毫秒。然后基本上不可能对嵌入模型使用超过100亿个参数。我们有参数限制。任何定制都是非常重要的，因为定制意味着你将有限数量的参数用于正确的任务。

正确的领域，以便你在该领域中表现出色。你不可能使用这100亿个参数在所有领域都表现出色。这就是为什么你必须在一个领域中专门化。我们已经看到通过这个特定领域的代码提高了5%到20%。

微调取决于特定的领域。对于代码，我们已经看到了15%到20%的改进，部分原因是我们有很多数据，而且那里的空间也更大，因为代码检索需要对代码的算法部分有深入的理解。

对于法律领域，基线略好一些，因此空间略小一些。这就是为什么我们看到5%到15%的改进，这取决于数据集。对于一些非常复杂的法律数据集，我们已经看到了更大的改进。为了确保我们的听众能够准确地了解这里的延迟成本来自哪里，在一个搜索系统中，你的数据已经被嵌入模型向量化了，但是每个查询……

还需要转换为嵌入，然后与你的知识的嵌入进行比较，以便为你想要生成的LLM提供数据，对吧？所以这里也有推理时间延迟。我认为如果有人没有构建过rack系统，这并不明显。

是的，完全正确，完全正确。所以基本上，在推理时，你必须首先将查询转换为向量，然后使用向量数据库进行搜索。实际上，与此相关的是，你生成的向量的维度也会影响基于向量的搜索的延迟。如果

嵌入的维度是100，只有100，那么它将比嵌入的维度是1000时快得多。所以，实际上这也是我们非常擅长的。所以我们生成的嵌入的维度比一些竞争对手小3倍、4倍。

是的。这使得，我的意思是，直觉上你正在创建使用有限数量的参数和维度的嵌入模型，只是考虑到任何应用程序必须创建的专有数据或特定领域数据的最佳可能表示的延迟预算。

是的，完全正确。回到特定领域和微调。第二级定制是我们可以针对特定公司进行定制，对吧？所以我们在特定公司的专有数据上进行微调，我们可以看到

与特定领域微调相比，还能提高 10% 到 20%。当然，总的改进预算有限，对吧？如果你一开始的准确率是 50%，那么你只有 50% 的提升空间。但如果一开始是 90%，那么你只有 10% 的提升空间。因此，改进的绝对值在不同领域略有不同。

也许只是给那些正在构建 RAG 系统的人一些建议。他们从什么时候开始投资这些检索组件？

是的，我认为他们甚至从第一天就可以这样做，只要他们有一个原型可用。基本上，我对用户的默认建议是，当他们拥有 RAG 时，首先，当然，你想要连接组件并至少看到一些响应。然后可能进行某种基本的延迟和质量分析，以便你能够

检查检索质量，这意味着你检索相关文档的频率。有一些默认的方法来评估检索质量。然后你还要对响应进行端到端的评估。然后你可以看到哪个部分是瓶颈。在许多情况下，人们发现检索质量不好，导致最终响应不好。

然后你可以替换一些组件。你可以说，我要尝试 Voyage 嵌入。我可以尝试 Voyage 重排序器，我们还没有过多讨论。你还可以尝试各种不同的嵌入，以及可能各种不同的大型语言模型。

也许只是从更宏观的角度来看，你知道，你一开始就说，为了讨论 RAG 与用于处理专有数据的替代架构的优劣，你需要进行预测，对吧？对于这些系统随着大型语言模型的显著改进而如何变化，你有什么预测？如果我们看看下一代 OpenAI 或 GPT、Claude、Mistral 模型、LAMA 等。

是的，我的预测是系统会越来越简单。也许这是我的偏见。至少这是我们正在努力的方向。其想法是，这是一个非常非常简单的系统。你只需要三个组件，比如大型语言模型，

向量数据库和嵌入模型，也许还有四个组件，另一个重排序器，它可以细化检索结果，你将所有这些连接起来，每个新网络都是其他所有东西，你无需担心截断、多模态或更改数据格式，因为

新的架构可以处理大部分工作，对吧？七年前，如果你与七年前所谓的任何语言模型交谈，你必须将格式转换为非常非常干净的格式。现在你与 GPT-4 交谈，你可以有错别字，你可以有各种奇怪的格式。你甚至可以向它转储 JSON 文件，对吧？嵌入模型也是如此。所以我的愿景是，未来，人工智能将只是

一个非常简单的软件工程层，建立在一些非常强大的神经网络组件之上。是的。我认为对……的偏见实际上都是人工智能与复杂、离散的软件系统之间的比较，这是很明显的，但是，我相信方向是对的。

也许从更宏观的角度来了解你作为创始人的一些看法，比如，你知道，作为一名学者，在创业之前，你有哪些最重要的经验教训，即使你在谷歌和其他公司工作过。是的。

是的，我认为这非常非常不同。创办公司与在大科技公司做研究非常不同。而且实际上它更接近于学术界，因为要管理一个大学实验室，我是 CEO、CTO、CFO，

以及大学实验室的人力资源部门，对吧？你接触到方方面面，但规模略有不同，对吧？我认为我学到的最重要的一点实际上来自我们的一位天使投资人，他建议我读一些书。即使那些……

我认为对于经验丰富的企业家来说，许多书都非常基础，但对我来说，它们非常非常有用。当我读到一些，甚至是一些基础的书籍时，包括 Eli 的书，顺便说一下。他的书有点……

高级，因为他谈论的是如何从 10 个人扩展到 1000 个人。我只读了几章，因为我们现在大约有 10 个人。所以，嗯。还要与许多天使投资人交谈，与……交谈，我的其他主要投资人。我认为所有这些都帮助我大大减少了这个过程中不必要的错误。对我来说，我认为这实际上是如何减少你犯错的数量，以便最大限度地提高效率。至少这是我遇到的情况。还要尽可能快地纠正错误，对吧？如果你可以在犯错后一周内纠正错误，而不是一个月后，那么这就是效率的巨大提升。

在你的研究脉络中非常理论上的一致。最后一个问题。你个人非常高产，拥有高产的科研实验室，但你创办了一家公司。在这个规模化时代，你认为学术界在人工智能中的作用是什么？因为你以前的大多数学生，他们基本上都在 OpenAI 或 Anthropic 工作，还有一些教授和 Citadel 的人。

还有和你一起工作的人。是的，是的。在学术界，这是一个有点有争议的话题。我认为不同的人有不同的观点。我的观点是，我认为学术界可能应该研究一些亚文化。

一些与行业擅长的事情不同的问题，对吧？如果我们只是研究如何扩展系统，那么显然激励机制是不对的。我们在那方面没有足够的资金。而且，你知道，即使是 OpenAI，我想 Seth Altman 认为，从某种意义上说，你需要大量的资金才能开始这样做。所以，你知道，在一开始，我认为关键在于，你知道，你首先有

它不能是非营利的，因为如果是非营利的，那么你没有足够的资金，也无法进行足够的规模化。我认为我有点同意这一点。这就是为什么在学术界，很难进行规模化并拥有足够的资源来进行大规模研究。然而，我认为在学术界，我们还有很多其他事情可以在较小的规模上做。我们可能应该关注更长期的创新。

所以我告诉实验室的学生，我们应该考虑三到五年内会有什么突破，而不是如何帮助 OpenAI 改善他们在 GPT-5 中的大型语言模型。这就是为什么我们研究优化器，它已经有 10 年的历史了。该项目是一个 10 年历史的优化器。我们说，好吧，这听起来像是一个长期项目。

也许五年后，我们可以将优化效率提高 5 到 10 倍。这将改变整个格局，对吧？如果我们将效率提高 10 倍，我想这就像训练 GPT-5 需要 1 亿美元而不是 1000 万美元。我认为这将极大地改变行业的格局。因此，效率是我投入大量时间的事情之一。另一件事是涉及推理任务。

我认为我将此确定为我实验室方向之一的原因是，它具有挑战性，需要大量

非常创新的研究。目前还不清楚你是否真的能够，规模定律是否真的足以让你证明黎曼假设或任何数学猜想。所以，你知道，你还必须在某种程度上具有超人的表现，对吧？如果你只打开网络上的公共数据，你能成为一名优秀的数学家吗？这很难让人相信。所以我们需要在那方面有更多的创新。这就是我们在大学实验室所做的。我们试图致力于三到五年的议程，并在较小的规模上进行。我认为这是一个鼓舞人心的结束语，并且对仍然需要弄清楚的事情持非常开放的态度。非常感谢你抽出时间，Tango。非常感谢。

在 Twitter 上关注我们 NoPriorsPod。如果你想看到我们的脸，请订阅我们的 YouTube 频道。在 Apple Podcasts、Spotify 或你收听节目的任何地方关注该节目。这样你每周都会收到新的剧集。并在 no-priors.com 上注册电子邮件或查找每集的文字记录。

The evolution and promise of RAG architecture with Tengyu Ma from Voyage AI 36:20 Share