We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Disrupting Search with Google with Revolutionary Pricing

Disrupting Search with Google with Revolutionary Pricing

2025/6/6
logo of podcast Lex Fridman Podcast of AI

Lex Fridman Podcast of AI

AI Deep Dive AI Chapters Transcript
People
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
Topics
主持人: 阿里巴巴推出了一种名为Zero Search的全新AI模型响应生成方法,我认为这在人工智能领域是一个绝对疯狂的转变。它允许AI模型本质上自己进行谷歌搜索,但它不使用任何类型的AI模型,并且将训练成本降低了约88%。我预计会看到很多AI模型基本上复制这个模板。这项技术通过模拟搜索结果数据,无需与真实搜索引擎交互,从而降低成本并提高效率。Zero Search通过生成多个AI生成的网站链接,模拟真实的搜索体验,并通过算法筛选高质量的模拟搜索结果,为用户提供更好的答案。这种方法不仅提高了结果质量,还替代了昂贵的Google搜索API,使得可以使用旧模型的合成数据来训练新模型。我认为,随着LLM不断改进,能够以真实的方式输出数据,而不会产生幻觉,那么对Google的需求将会消失。虽然新闻等新信息仍然需要API来获取,但Twitter等社交媒体和新闻文章的结合,再加上LLM,基本上就不再需要Google了。当然,这种技术的出现可能会对那些网站信息被抓取的人产生不利影响,但总的来说,我认为Zero Search是一种非常有趣的新型训练概念,它正在彻底改变我们看待信息的方式。

Deep Dive

Chapters
Alibaba's Zero Search is a new AI model training technique that cuts costs by 88% by simulating search results instead of using a Google API. It generates multiple fake websites to mimic Google's response page, then uses an algorithm to select the best responses. This method achieves higher quality results while significantly reducing expenses.
  • Zero Search cuts training costs by 88%
  • Simulates Google search results to avoid API costs
  • Generates multiple AI-generated websites to select the best responses
  • Achieves higher quality results

Shownotes Transcript

在我看来,阿里巴巴在人工智能领域取得了令人震惊的进展,他们提出了一种全新的方法来生成高质量的人工智能模型响应。这与你以前听说过的任何事情都不一样。他们刚刚发表了一篇研究论文,介绍了这项技术,名为“零搜索”(Zero Search)。它本质上允许

人工智能模型进行自我谷歌搜索,但它不使用任何人工智能模型。它将训练成本降低了约88%。所以最大的新闻是它大幅降低了训练成本。我预计许多人工智能模型都会复制这种模板。但这绝对令人着迷。所以

阿里巴巴的研究人员提出了这个方法。在我们深入探讨之前,我想提一下,我的初创公司AI Box已经正式推出。我们在AIbox.ai上提供测试版平台,它允许你以每月20美元的价格使用所有顶级AI模型(文本、图像、音频)进行聊天。所以你无需订阅所有服务,只需每月20美元,你就可以访问所有顶级AI模型,例如Anthropic、OpenAI、Meta、DeepSeek、

11 Labs(用于音频),以及所有这些顶级模型,包括Ideogram(用于图像),你可以在同一个聊天中与它们进行交互。

我最喜欢的功能之一是能够向特定模型提问,然后用另一个模型重新运行聊天。很多时候,我会让ChatGPT帮我写文档或帮我写邮件或修改措辞,但我不喜欢它的语气,所以我用Claude重新运行它,我找到了更好的结果;或者有时我想让它更尖锐一些,我就用Grok运行它。所以你有很多不同的选择。

然后你会有一个小标签,可以并排打开所有回复并进行比较,看看哪个最符合你的心意。如果你感兴趣,请查看AIbox.ai。链接在描述中。好了,让我们回到阿里巴巴正在做的事情。正如我提到的,他们推出这项新技术,名为“零搜索”(Zero Search)。它本质上允许他们开发他们所谓的先进搜索功能。但实际上,他们所做的是模拟搜索。

搜索结果数据。例如,你问它一个问题,它会创建一个模拟的谷歌回复页面,它实际上会生成,所以当你使用谷歌搜索时,你会得到20个你可以查看的网站链接等等,它就像生成20个虚假的网站或人工智能生成的网站,它认为这些网站通常会

显示在该问题中。起初我有点困惑,然后它本质上让AI模型运行,它有一个算法,它会选择哪些是高质量的,哪些是低质量的,选择哪些是最好的回复。这本质上帮助它给你一个好的,嗯,

答案。这对我来说太迷人了。起初我想,为什么,为什么他们要这样做?这看起来太奇怪了。你为什么要生成多个结果?你为什么要生成像AM模型这样的东西?这本质上只是最新的一种方法,嗯,他们实现了几件事。首先,更高质量的结果,对吧?这有点像我们提出思维链或告诉它逐步思考的过程时,它突然开始得到更高质量的结果。这真的很酷,因为它就像,

它正在生成20个页面,并且正在浏览和查看20个不同的结果,并确定最佳答案是什么。所以它就像,它正在生成相同的东西大约20次。所以你会得到更好的回应。但另一个有趣的事情是他们说,

这取代了使用昂贵的谷歌搜索API。谷歌搜索会提供一个API。如果你想根据互联网上的所有数据训练AI模型,你只需获取谷歌API,运行它,就可以根据互联网上的所有内容训练你的模型。但这非常昂贵,你为此要向谷歌支付大量资金。所以他们已经用合成数据取代了谷歌API。这听起来很疯狂,听起来不可能,但实际上并非如此。

遥不可及。有趣的是,因为,对不起,因为这些AI模型已经拥有所有数据,你知道,在,在整个互联网上,它们几乎已经吸收了维基百科的所有数据以及它们可以获取的所有数据集。它们实际上已经拥有所有答案了。所以如果它们已经从谷歌抓取了所有内容,它们就不需要再次抓取,仅仅是因为它们正在进行新的模型训练。它们可以使用旧模型的合成数据来

本质上创建新的数据进行训练。这听起来有点疯狂,但这就是他们对此的具体说法。他们说强化学习训练需要频繁的部署,可能涉及数十万次搜索请求,这会产生大量的API费用并严重限制能力。

为了应对这些挑战,我们引入了零搜索(Zero Search),这是一个强化学习框架,它可以在不与真实搜索引擎交互的情况下激励LLM的搜索能力。这对我来说太迷人了,这是一个非常有趣的概念。他们在做这件事时发现,这实际上优于谷歌。所以

他们还提到的一件事是,他们说:“我们的关键见解是,LLM在大型预训练过程中已经获得了广泛的世界知识,并且能够为给定的搜索查询生成相关的文档。真实搜索引擎和模拟LLM之间的主要区别在于返回内容的上下文风格

返回内容的风格。就像他们提到的那样,他们已经从预训练中获得了所有数据。当他们实际要训练它时,他们不想再次查询谷歌并再次向它支付所有费用。那么输出的质量如何呢?这是我最大的问题,我被震惊了。

所以他们做了一系列实验。他们使用了七个不同的问答数据集,他们的新方法“零搜索”(Zero Search)不仅匹配,而且通常实际上优于使用真实搜索引擎数据的模型的性能。他们有一个70亿参数的检索模型,这并不是很大。

嗯,它实际上达到了与谷歌搜索相同的性能。所以当你使用谷歌搜索时,他们只是说你得到的回复或你得到的那些前20个链接的质量,这些信息组合在一起的质量与70亿参数模型所能达到的质量相同。所以这是一个比较小的模型。

然后他们稍微提升了一下,他们有一个140亿参数的模型,这仍然不是最大的模型。我认为Meta有一个5000亿参数或4000亿参数的模型,嗯,它可能是他们最好的。所以有更大的模型,对吧?但他们的140亿参数模型,嗯,

实际上优于谷歌搜索。70亿参数的模型与谷歌搜索的NLLM不相上下,而140亿参数的模型则更好。因此,成本节省非常巨大,使用谷歌搜索API进行64000次搜索查询。

这将花费他们大约586美元。当他们使用他们的140亿参数模型,并且只是在A100 GPU上使用LLM进行模拟时,它大约花费70美元。所以从580美元到70美元的训练费用。这是88%的减少。

在他们的论文中,他们引用道:“这证明了在强化学习设置中使用经过良好训练的LLM替代真实搜索引擎的可行性。”我认为我们将达到它完全取代搜索引擎的地步,就像以一种真正字面意义上的方式一样。我们看到ChatGPT几乎做到了这一点。人们只是使用ChatGPT而不是谷歌。但我认为,

对谷歌的需求将会消失,因为谷歌上的所有数据现在都被这些模型吸收了。随着它们在吐出数据方面越来越好,并且不会产生幻觉并以一种真实的方式提供数据,就像我们所看到的谷歌那样,谷歌实际上就不需要存在并向人们发送链接了。现在,

我知道你在想什么。你可能会想,你怎么可能取代谷歌?所有这些新信息不断涌现。例如,这篇文章是新发布的信息,它不在他们的模型中,但在谷歌中。所以我认为总会有一个地方用于所谓的新闻,新信息。你可能需要一个API来

获取新闻或新信息发布的地方,例如社交媒体,当然Facebook完全被封锁了。所以除了Meta可以访问之外,其他地方都不行。但你还有Twitter或Reddit。所以我认为Twitter和Reddit,甚至可能是Twitter更多,因为它有很多第一手的新闻视频之类的东西。所以Twitter/X,无论你想怎么称呼它,我认为该数据集非常有价值。所以我认为Grok在这个新世界中将会做得非常好。他们可以创建自己的搜索引擎,它只是将信息链接到Grok

它将链接到新闻文章和其他内容。所以他们真的拥有你所需要的一切。当然,新闻文章是另一件事。你可能想要新闻,你会看到OpenAI显然意识到了这一点,因为他们正在与Axel Springer和所有这些不同的,你知道,所有这些不同的新闻机构达成所有这些不同的协议,以获取他们的数据。所以,

记者撰写所有这些新的新闻文章之类的东西是很好的,但他们经常是从Twitter上获取的。所以它有点像,我认为,一个与LLM相结合的Twitter和新闻组合。你实际上不再需要谷歌了。你不需要那个API。你可以不用它运行。对于像Meta这样的拥有Facebook访问权限的公司来说,

Facebook,他们可能只需要自己就可以了,因为用户正在分享新闻。他们可以获取那里的热门内容并将其添加到他们的LLM中。就是这样,他们就可以开始了。然后,当然还有Twitter,很多东西都是第一手上传的,他们应该没问题。Reddit甚至可以尝试一下,或者他们正在将他们的东西授权给谷歌来做一些事情。所以我认为Reddit和谷歌之间的合作关系可能会出现。但这太迷人了。这完全改变了我们看待信息的方式。是的。

好坏参半,因为我肯定有很多网站所有者对他们的网站被抓取后,他们的信息不再需要,因为已经被抓取,现在已经包含在内而感到不满。所以看看事情会如何发展将会很有趣,但非常引人入胜。我被成本节省震惊了。我被他们能够在这方面超越谷歌的方式震惊了。嗯,所以这是,嗯,

阿里巴巴推出的一个非常非常有趣的工具,一个引人入胜的新训练理念。非常感谢您收听今天的播客。如果您喜欢它,请务必留下评分和评论。如果您正在寻找一种方法来减少您20种不同的订阅费用,不同的AI模型,请查看AIbox.ai。我们有很多令人兴奋的新功能即将推出。

即将推出。我们可以访问所有30个顶级AI模型,你每月只需支付20美元即可使用。所以非常有趣。非常感谢您的收听,我们下次再见。