We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Alibaba Creates "ZeroSearch" to Replace Google 88% Cheaper

Alibaba Creates "ZeroSearch" to Replace Google 88% Cheaper

2025/5/10
logo of podcast AI Chat: ChatGPT & AI News, Artificial Intelligence, OpenAI, Machine Learning

AI Chat: ChatGPT & AI News, Artificial Intelligence, OpenAI, Machine Learning

AI Deep Dive Transcript
People
J
Jaeden Schafer
Topics
Jaeden Schafer: 阿里巴巴推出名为Zero Search的全新AI模型响应生成方法,无需使用AI模型即可实现AI模型“自谷歌”,从而大幅降低训练成本约88%。我认为这项技术具有颠覆性,许多AI模型可能会效仿。我的公司AI Box也推出了新功能,用户只需每月支付20美元,即可在同一聊天界面中使用所有顶级的文本、图像和音频AI模型。Zero Search通过模拟搜索结果数据来开发高级搜索能力,它会生成模拟的Google搜索结果页面,包括AI生成的虚假网站,并选择最佳响应。这种方法不仅提高了结果的质量,还替代了昂贵的Google搜索API,通过合成数据进行模型训练。AI模型已经拥有互联网上的大部分数据,因此可以使用来自旧模型的合成数据来训练新模型。实验表明,Zero Search不仅与使用真实搜索引擎数据的模型性能相当,而且通常更胜一筹。使用Zero Search,一个70亿参数的检索模型可以达到与Google搜索相同的性能,而一个140亿参数的模型甚至可以超越Google搜索。使用Google搜索的API进行大量搜索查询会产生高昂的费用,但使用Zero Search可以显著降低成本,例如,成本降低了88%。我认为,训练有素的LLM不仅可以替代强化学习设置中的真实搜索引擎,而且最终可能完全取代搜索引擎。随着LLM越来越擅长输出数据且不产生幻觉,对Google的需求将会消失。Twitter的数据集非常有价值,Grok可能会在这个新世界中做得很好,他们可以创建自己的搜索引擎,将信息与新闻文章和其他内容联系起来。Twitter和新闻的结合可以替代Google及其API。这项技术正在彻底改变我们看待信息的方式,虽然这可能会让那些网站信息被抓取后不再被需要的网站所有者感到不满。总而言之,阿里巴巴的这项新技术和训练概念令人印象深刻,特别是其成本节约和超越Google的性能。

Deep Dive

Shownotes Transcript

在我看来,对于人工智能来说,这是一个绝对疯狂的转变,阿里巴巴提出了一种全新的方法来生成高质量的人工智能模型响应。这可不是你以前听说过的。所以这是他们刚刚发布的一篇研究论文,它被称为零搜索。本质上,它所做的是允许

人工智能模型基本上自己进行谷歌搜索,但它不使用任何人工智能模型。它将培训成本降低了约 88%。所以最大的标题是这大大降低了培训成本。我希望看到许多人工智能模型基本上复制这个模板。但这绝对令人着迷。所以

阿里巴巴的研究人员提出了这个方法。在我们深入探讨之前,我想提一下,我的初创公司 AI Box 正式启动。我们在 AIbox.ai 上提供我们的测试版游乐场,它基本上允许您以每月 20 美元的价格使用所有顶级 AI 模型(文本、图像、音频)进行相同的聊天。因此,您无需每月支付 20 美元订阅所有内容。您可以访问所有顶级 AI 模型,例如 Anthropic、OpenAI、Meta DeepSeek、

11 Labs(用于音频),所有这些顶级模型,以及 Ideogram 等。

用于图像,您可以在同一个聊天中与它们进行聊天。我最喜欢的游乐场功能之一是能够向特定模型提问,然后使用另一个模型重新运行聊天。很多时候,我会让 ChatGPT 为我撰写文档或帮助我撰写电子邮件或更改措辞,然后我想,我不喜欢这种语气,我用 Claude 重新运行它,我找到了更好的结果,或者有时我想,你知道吗,我想更大胆一点,我用 Grok 运行它,所以您在那里拥有所有不同的选项

然后,您有一个小标签,可以在其中打开所有并排的响应并进行比较,看看您最喜欢哪个。如果您有兴趣,请查看 AIbox.ai。链接在说明中。好了,让我们回到阿里巴巴发生的事情。正如我提到的,他们推出这项新技术,它被称为零搜索。它基本上允许他们开发他们所谓的先进搜索功能。但本质上,他们所做的是模拟搜索。

搜索结果数据。例如,您向它提问,它会创建一个模拟的 Google 响应页面,它实际上会生成,因此,当您在 Google 上进行搜索并获得 20 个您可以查看的网站链接或其他内容时,它就像生成 20 个虚假网站或人工智能生成的网站,它认为这些网站通常会

显示该问题。起初我就像,然后它基本上让 AI 模型运行,它有一个算法,它选择哪些是高质量的,哪些是低质量的,选择哪些是最好的响应。这基本上有助于它给你一个好的,嗯,

答案。这对我来说太迷人了。起初我就像,为什么,为什么他们要这样做?这看起来太奇怪了。你为什么要生成多个结果?你为什么必须生成像 AM 模型这样的东西?它本质上只是最新的一种补充方法,嗯,他们实现了几件事。首先,更高质量的结果,对吧?这有点像我们提出思维链或告诉它逐步思考的过程时,它突然开始获得更高质量的结果。这真的很酷,因为它就像,

它正在生成 20 个页面,并且正在浏览并查看 20 个不同结果的内容,并确定最佳答案是什么。所以它就像,它正在大约 20 次地生成相同的东西。所以你会得到更好的回应。但他们说的另一件有趣的事情是,他们说,

这取代了使用昂贵的 Google 搜索 API。Google 搜索为您提供 API。如果您想根据互联网上的所有数据训练 AI 模型,只需获取 Google API,运行它,然后您可以根据互联网上的所有内容训练您的模型。但这非常昂贵,您需要向 Google 付出大量资金。因此,他们基本上用合成数据取代了 Google API。这听起来很疯狂,听起来不可能,但这实际上并非如此。

遥不可及。有趣的是,因为,对不起,因为这些 AI 模型已经拥有所有数据,你知道,在,以及整个互联网,几乎所有数据,他们已经从维基百科和所有他们可以获取的数据集中吸收了所有数据。他们真的已经拥有所有答案了。因此,如果他们已经从 Google 抓取了所有内容,他们就不需要再次抓取它,仅仅是因为他们正在进行新的模型训练。他们可以使用旧模型的合成数据来

基本上创建新的数据进行训练。这听起来有点疯狂,但这就是他们对此的具体说法。他们说,强化学习训练需要频繁的推出,可能涉及数十万次搜索请求,这会产生大量的 API 成本并严重限制能力。

为了应对这些挑战,我们引入了零搜索,这是一种强化学习框架,它可以在不与真实搜索引擎交互的情况下激励大型语言模型的搜索能力。这对我来说太迷人了,这是一个非常有趣的概念。他们在做这件事时发现,这实际上优于 Google。所以

他们还提到的一件事是,他们说:“我们的关键见解是,大型语言模型在大型预训练期间已经获得了广泛的世界知识,并且能够根据给定的搜索查询生成相关的文档。真实搜索引擎和模拟大型语言模型之间的主要区别在于

返回内容的上下文风格。就像他们提到的那样,他们已经从预训练中获得了所有数据。当他们实际要训练它时,他们不想再次查询 Google 并再次向它支付所有费用。那么输出的质量如何呢?这是我最大的问题,我感到震惊。

因此,他们进行了一系列实验。他们使用了七个不同的问答数据集,零搜索,他们的新方法不仅匹配,而且通常实际上优于具有真实搜索引擎数据的模型的性能。因此,他们有一个 70 亿参数的检索模型,这并不是很大。

嗯,它实际上实现了与 Google 搜索相同的性能。因此,当您在 Google 上进行搜索时,他们只是说您获得的响应或您获得的前 20 个链接的质量,这些信息组合的质量与 70 亿参数模型可以实现的质量相同。所以它是一个比较小的模型。

然后他们稍微提升了一点,他们有一个 140 亿参数的模型,这仍然不是最大的模型。我认为 Meta 有一个 5000 亿参数或 4000 亿参数的模型,嗯,它可能是他们最好的。所以有更大的模型,对吧?但他们的 140 亿参数模型。嗯,

实际上优于 Google 搜索。因此,对于 70 亿个参数,它们与 Google 搜索相当,使用 Google 搜索的 NLLM,而 140 亿个参数则更好。因此,使用 Google 搜索 API 进行大约 64,000 次搜索查询的成本节省绝对巨大。

这将花费他们大约 586 美元。当他们使用他们的 140 亿参数模型并且只是在 A100 GPU 上使用大型语言模型进行模拟时,它大约花费 70 美元。因此,训练成本从 580 美元降至 70 美元。这是 88% 的减少。

在他们的论文中,他们引用道:“这证明了在强化学习设置中使用经过良好训练的大型语言模型替代真实搜索引擎的可行性。”我认为我们将达到它完全取代搜索引擎的地步,就像以一种真正字面意义上的方式一样。我们看到 ChatGPT 几乎做到了这一点。人们只是使用 ChatGPT 而不是 Google。但我认为,

随着 Google 上的所有数据都被吸收到这些模型中,对 Google 的需求将会消失。随着它们在吐出数据方面越来越好,并且不会产生幻觉并以真实的方式提供数据,就像我们所看到的 Google 那样,Google 将不再需要存在并向人们发送链接。现在,

我知道你在想什么。你可能会想,你怎么可能取代 Google?所有这些新信息不断涌现。例如,这篇文章是新发布的信息,它不在他们的模型中,但在 Google 中。所以我认为总会有一个地方可以容纳所谓的新闻,新信息。你可能需要一个 API 来

无论新闻或新信息从哪里发布,例如社交媒体,当然 Facebook 完全被封锁了。所以除了 Meta 可以访问之外,其他都不行。但是你还有 Twitter 或 Reddit 之类的东西。所以我认为 Twitter 和 Reddit,甚至可能是 Twitter 更多,因为它有很多第一手的新闻视频之类的东西。因此,Twitter/X,无论你想称它为什么,我认为该数据集非常有价值。所以我认为 Grok 在这个新世界中将会做得非常好。他们基本上可以创建自己的搜索引擎,它只是将信息链接到 Grok

它将链接到新闻文章和其他内容。所以他们真的拥有你所需要的一切。然后,当然,新闻文章是另一件事。你有点想要新闻,你看到 OpenAI 显然意识到了这一点,因为他们正在与 Axel Springer 和所有这些不同的,你知道,所有这些不同的新闻机构达成所有这些不同的协议,以获取他们的数据。所以,

记者撰写所有这些新的新闻文章之类的东西很棒,但他们通常是从 Twitter 上获取的。所以它有点像,我认为,一个与大型语言模型相结合的 Twitter 和新闻组合。你实际上不再需要 Google 了。你不需要那个 API。你可以不用它运行。对于像 Meta 这样可以访问 Facebook 的公司来说,

Facebook,他们可能只需要自己就可以了,因为用户正在分享新闻。他们可以获取那里的热门内容并将其添加到他们的大型语言模型中。好了,他们可以开始了。然后,当然,Twitter,很多东西都是第一手上传的,他们应该没问题。Reddit 也许甚至可以发挥作用,或者他们正在将他们的东西授权给 Google 来做一些事情。所以我认为 Reddit 和 Google 之间的合作关系可能是这样的。但这太迷人了。这完全改变了我们看待信息的方式。是的。

好坏参半,因为我肯定有很多网站所有者对他们的信息被抓取后不再需要感到不满,因为它们已经被抓取,现在它们就在那里。所以看看事情会如何发展将会很有趣,但非常引人入胜。我对成本节省感到震惊。我对他们能够在这方面超越 Google 的方式感到震惊。嗯,所以这是,嗯,

阿里巴巴推出的一个非常非常有趣的工具,一个引人入胜的新训练概念。非常感谢您收听今天的播客。如果您喜欢它,请务必留下评分和评论。如果您正在寻找一种方法来减少您 20 种不同的订阅成本,不同的 AI 模型,请查看 AIbox.ai。我们有很多令人兴奋的新功能即将推出。

即将推出。我们可以访问那里所有 30 个顶级 AI 模型,每月 20 美元即可使用。所以非常有趣。非常感谢您的收听,我们下次再见。