这是第 870 集,主题是深度研究。欢迎回到超级数据科学播客。我是你的主持人,约翰·克罗恩。本周我和家人在瑞士滑雪度假,所以我将跳过本周的开场白,直接进入今天五分钟周五风格节目的核心内容。而这个核心内容就是关于深度研究,具体来说……
虽然谷歌和 Perplexity 等其他公司最近也发布了名为深度研究的工具,但本集中我们将主要关注 OpenAI 的深度研究,因为它是目前该领域中明显的领先者。请注意,OpenAI 并没有以任何方式赞助我。这是我个人的独立观点。所以……
首先,深度研究能做什么?它非常出色地自动化了深入的文献综述,并将数百个在线来源综合成一个连贯且有良好引证的报告。使用像我在最近第 864 集中介绍过的 OpenAI 模型这样的多步骤“推理”模型,
深度研究将你的复杂查询分解成更小的任务,然后它搜索网络以查找它所识别出的这些较小任务的每一部分,然后它迭代地将结果综合成一个报告,并在学习新信息时调整其研究轨迹。
实际上,这就像随时随地都有一位专家研究人员在处理数据,其速度是任何人都无法比拟的。对于人类研究人员可能需要数小时或数天才能完成的任务,现在可以在几分钟内出色地完成。
OpenAI 使用端到端强化学习在各种领域中对具有挑战性的网络浏览和推理任务进行了深度研究训练。通过这种训练,它学会了规划和执行多步骤轨迹以查找所需的数据,并在必要时回溯并对实时信息做出反应。
该模型还可以浏览用户上传的文件。它可以使用 Python 绘制图表。它可以将图像嵌入到其响应中,包括它在进行研究时搜索的网站中的图像,或者它可以为你生成图表并将这些图表也放入其响应中。它还提供参考文献。因此,它将提供带有特定句子或段落的来源,这些句子或段落被标识为信息的特定来源。这很酷。所有这些都非常酷。由于这种强化学习训练以及所有这些功能的结合,OpenAI 的深度研究在许多关注现实世界问题的公开评估中达到了新的高度。也就是说……
深度研究在一个最近发布的 AI 评估中——“人类的最后考试”——设定了一个极高的新的基准。我在节目说明中提供了一个指向“人类的最后考试”网站的链接,以便你可以详细查看它。但它是一个全面的评估,包含 3000 个多项选择题和简答题,涵盖从火箭科学到语言学的 100 多个科目。
这是一个广受尊重的新的基准,它原本应该对 AI 模型来说是一个非常具有挑战性的任务。我们希望最终能够创建一个评估,需要
数年才能在 AI 模型上获得任何进展。但在这次“人类的最后考试”基准测试中,深度研究突然表明,AI 在这个据称非常非常具有挑战性的任务集中取得了进展。例如,OpenAI 01 在“人类的最后考试”中的准确率只有 9.1%。
DeepSeq R1 也差不多,准确率为 9.4%。然后出现了 OpenAI 深度研究,它完全超越了所有其他数字,准确率达到 27%,这仍然没有接近 100%。但是一旦 AI 模型在任何其他类型的基准测试中(我们已经看到过),在过去的基准测试中,例如软件工程基准测试、数学基准测试,一旦 AI 模型似乎能够获得一些进展,你知道,像这样从 9% 的准确率跃升到 27%,
从那时起,我们最终会看到它在接下来的几个月或至少几年内取得巨大的进步。因此,如果不久之后“人类的最后考试”被 AI 征服,我不会感到惊讶。在我的视频版节目中,我有一个表格显示了在录制时所有领先模型在“人类的最后考试”中的表现。
像 GPT-4-0 这样的模型,它是一种领先的 OpenAI 模型,可以立即输出答案,而无需逐步推理,它在“人类的最后考试”中的准确率只有 3%。这与来自 XAI 的 Brock 2 和 Claude 3.5 Sonnet 相当,它们的得分都在 4% 左右。
然后是谷歌的成果 Gemini Thinking,得分约为 6%。因此,O1 和 DeepSeq R1 的表现要好得多,达到 9%。O3 Mini 出现了,在将推理模型设置为高并使用大量计算的情况下,准确率达到了 13%。但是的,OpenAI 深度研究,绝对令人惊叹的结果。
在竞争对手模型和竞争对手公司方面,它击败了所有竞争对手,在“人类的最后考试”中的准确率为 27%。所以这绝对是值得关注的事情。
当然,“人类的最后考试”中性能的巨大飞跃确实转化为现实世界的价值。自从我获得了 OpenAI Pro 订阅(每月 200 美元)以来,它每月是 200 美元,但考虑到它为我节省的时间及其洞察力的价值,这对我来说很容易值得。因此,我一直将深度研究作为 Pro 订阅的一部分几乎每天都在使用,并且一直印象深刻。
例如,我最近使用深度研究来加快即将举行的为期四小时的自主 AI 研讨会的教学大纲的开发,我将于 5 月在波士顿的东部开放数据科学会议 (ODSC East) 上提供该研讨会。
所以我对这个教学大纲,这个自主 AI 教学大纲已经有一些信息了。所以我将这些细节提供给了模型。我告诉它,我知道我将有四个模块。第一个模块感觉已经相当完整了,但你可以随意添加一些内容。第二个模块,这是最需要改进的模块。我知道我有一个想要查看的外部 URL 链接,但这就是我所拥有的全部内容。
然后第三个模块是空的。我说,你可以把它留空,因为我知道我将要放什么内容。或者更具体地说,我的共同演讲者埃德·唐纳在这个研讨会上,我知道他将要放什么内容。
然后我说,我已经开始做第四个模块了,但可能还需要一两点。然后我提供了我已经拥有的信息。所以,我认为第一个模块已经做得差不多了。所以我提供了它的教学大纲要点。同样,对于第二个模块,我只是提供了一个链接。
第四个模块是不完整的。所以我将所有这些信息都提供给了模型。然后我说,为了帮助你确定我的风格,我还想让你为这个研讨会创建一个标题和摘要。所以我要求它提供一个教学大纲,一种关于我将在这次自主 AI 研讨会上做些什么的逐点细分。
然后我说,我还想要一个标题和一个摘要。所以我提供了一些我过去为开放数据科学会议研讨会撰写的标题和摘要的例子。所以也提供了这个背景信息。是的,所以有两个例子和这些说明。
模型回复了我并问我一些问题。我还注意到一些事情。如果你正在观看本节目的 YouTube 版本,我实际上正在展示我提供的这个特定查询。在左上角,你会看到 ChatGPT 4.0 是选定的模型。这只是因为我现在正在查看它的历史记录。所以查看历史记录后,我没有回到深度研究会话中。
我可以继续进行对话,但它不会自动成为深度研究,而是设置为 GPT-4.0。但你可以忽略这一点。这是我与深度研究模式开启的 O1 专业模式对话。是的,打开深度研究非常容易。
这可能是我在开始这种解释时就应该说的事情。但基本上,你只需在 ChatGPT 的查询框下方切换一个按钮,该按钮就会变成蓝色,你就会进入深度研究模式。无论如何,一旦我向深度研究提供了所有信息,正如我前面描述的那样,
我已经拥有的模块,我关于哪些模块需要补充的说明,以及我过去在 ODSC 上提供的标题和摘要的示例。它回复了我并要求我提供更多信息,这对我来说是一种新的体验,尤其是在 LLM 中,它要求的细节程度如此之高。它要求我提供更多关于目标受众的信息。你知道,与会者的预期水平是什么?是初学者、中级还是高级?
是否有编程重点?是否会有使用 Python 或其他特定框架的动手编码?语气是什么?标题和摘要应该更偏向于实际的动手感觉还是概念性的思想领导风格?然后它说,一旦我有了这些信息,我就可以相应地改进研讨会的结构。这些都是很好的问题。所以我提供了关于我正在寻找的目标受众的详细答案,是的,它是一个使用 Python 的动手编码研讨会。
并且更偏向于实际的动手感觉。从那里,
深度研究花了三分钟时间查看了八个不同的来源来得出我的结果。你实际上可以点击历史记录来查看深度研究所经历的思维链。所以它为得出结论而经历的逐步过程的总结。它甚至还在查看我 johncron.com 网站上的一些内容。
试图为我创建一个很棒的标题、摘要和教学大纲。它还为我提供了所有用于此信息来源的链接。所以所有这些都很酷,所有这些都非常容易在一个相当干净的 ChatGPT 界面中看到。但你可能最感兴趣的是结果,它非常出色。我的意思是,在我……
将它作为我的摘要、标题和教学大纲提供给 ODSC 之前,我当然做了一些小的改动,但它通过以我的风格创建一个很棒的草稿为我节省了数小时的时间,因为我提供了过去我风格的例子。它为我的教学大纲提供了很多很棒的想法,我能够快速将其总结成开放数据科学会议的要点。
是的,真的很酷。我希望这能让你对深度研究有一个了解,并进行具体的示例分析。
在你的情况下,想象一下你正在探索 Transformer 架构的最新进展。与其花费数天时间扫描档案、会议论文和技术博客,你只需向深度研究请求最近突破的摘要即可。该工具将提取关键点,例如训练算法、扩展技术和性能指标的改进,并向你提供一个清晰、结构化的概述,并附带参考文献。
这不仅节省了大量时间,而且还最大限度地减少了忽略关键研究的风险。当然,正如我在本集开头提到的那样,OpenAI 并非该领域的唯一参与者。例如,谷歌和 Perplexity 也推出了他们自己的深度研究功能。谷歌的方法由其 Gemini LLM 提供支持,
利用其庞大的搜索基础设施来提取大量文档。该工具通常会提供一个用户引导的研究计划,在深入研究之前概述子问题。这种方法会生成一份可靠的综合报告,但有时它会达不到深度研究提供的细致分析水平。
然后是 Perplexity,他们提供了一种快速且免费的深度研究模式。因此,Perplexity 只需几分钟就能提供一个高级概述,这对于快速获取快照非常有用。但是,这种速度可能会以深度和迭代推理为代价。对于快速查询或免费查询,Perplexity 效果很好。但对于关键任务分析,OpenAI 的方法更周密、更透明,
显然具有优势,即使它相对昂贵。无论哪家公司在创新背后,顺便说一句,我还提供了有关谷歌和 Perplexity 的更多信息的链接
深度研究技术。但无论哪家公司在创新背后,展望未来,其影响深远。深度研究重新定义了我们处理数据科学及其他领域问题解决的方法。它通过降低进入门槛来使高质量研究更容易获得,无论你是在某个领域经验丰富的专家,还是刚刚起步。
随着这些系统不断改进,我们可能会很快看到研究助手直接嵌入到我们的开发环境中,随时准备从最新的出版物或我们公司或个人拥有的内部数据存储中提取见解。与能够以越来越高的可靠性采取现实世界行动的 AI 代理相结合,像深度研究这样的工具将使越来越多的能力得到增强,越来越多的常规工作得到自动化。
影响深远。如果你将此向前推进几年,并且继续假设并安全地假设深度研究和 AI 代理等功能将继续显着改进,我鼓励你利用人类历史上这个独特的时刻
考虑一下未来几年日益强大的自主系统如何改善你的生活和你周围人的生活,包括在社会公益项目和纯粹的商业影响项目上。
当然,今天仍然存在一些需要意识到的局限性。与任何基于 LLM 的工具一样,深度研究可能会出现幻觉或错误引用,尽管我自己还没有发现任何这些问题。OpenAI 的内部评估显然表明,与他们之前的任何工具相比,深度研究的幻觉率明显更低。
对你来说最大的风险是深度研究可能会将谣言呈现为权威事实。但 OpenAI 意识到这个问题偶尔会出现,你可以预期在未来几个月和几年中,这种过度自信的问题将变得非常罕见。在我个人使用深度研究的过程中,我还没有注意到这一点。
那么,这一切有什么问题呢?好吧,深度研究很昂贵,尤其是来自 OpenAI 的深度研究。我再次每月支付 200 美元作为专业用户才能获得每月 100 个查询。所以每天大约三个查询,但你会得到全面的答案。这实际上是相当多的工作。
随着 OpenAI 找出工程效率以及如何更有效地将像 O3 Mini 这样的小型模型用于深度研究,你可以预期每月将有越来越多的深度研究查询提供给所有付费用户,最终,我相信它将像 Perplexity 的深度研究一样免费提供。总而言之,OpenAI 的深度研究正在通过自动化信息收集、分析和综合过程中的繁重工作来改变研究过程。
凭借其在“人类的最后考试”中令人印象深刻的基准测试表现、透明的思维链和迭代推理过程,深度推理提供的深度和可靠性水平甚至超过了谷歌和 Perplexity 等竞争对手。随着我们继续将 AI 集成到我们的工作流程中,这些工具将成为将原始数据转化为可操作的见解的关键,
并允许自主 AI 模型在下游完全自主,使我们能够突破创新和数据科学以及世界其他一切的界限。好了,这就是今天的节目内容。如果你喜欢它,或者认识可能考虑与他们分享这集节目的人,请在你最喜欢的播客平台上留下对节目的评论。在你的 LinkedIn 或 Twitter 帖子中标记我,并留下你的想法。如果你还没有订阅该节目,显然要订阅。
然而,最重要的是,你只需继续收听。直到下次,继续努力吧,我期待着很快与你一起再次享受超级数据科学播客。