We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Can OpenAI's Deep Research Really Do 1% of All Work?

2025/2/4

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive AI Chapters Transcript

People

AI Daily Brief

Andreessen Horowitz合伙人Anshni Mitha

Armis的CTO

Benjamin DeKraker

Ethan Malek教授

Noam Brown

OpenAI

Sam Altman

领导 OpenAI 实现 AGI 和超智能，重新定义 AI 发展路径，并推动 AI 技术的商业化和应用。

Stan Shipper

Tier Taxis

X公司的工程师Cash

Topics

Sam Altman: 我认为OpenAI的深度研究模型可以完成世界上所有具有经济价值任务的个位数百分比,这是一个重要的里程碑。它可以像专家一样,利用互联网进行复杂的研究和推理,并提供报告。这将彻底改变许多行业。我个人认为,快速发展比几年前我认为的更有可能。也许是时候写点东西了。我们一直在讨论开源策略,我个人认为我们一直站在历史的错误一边,需要找到不同的开源策略。 Armis的CTO: 我们最担心的是AI模型可能将数据泄露给中国政府。你不知道你的信息去了哪里。DeepSeek的条款明确规定它可以访问击键数据,并应要求与中国政府共享。 X公司的工程师Cash: 我看到DeepSeek R1算法有效,并且被很多人复制。我没有想到这一点。我认为它基本上结束了。没有护城河。没有数据标记护城河。没有数据护城河。几乎没有计算护城河。结束了。我认为人们并没有真正理解这一点。不要投资OpenAI。不要与他们签订任何协议。不要与他们做任何生意。 Andreessen Horowitz合伙人Anshni Mitha: DeepSeek的创新将增加GPU需求,因为公司会利用获得的算力做更多的事情。开源项目通过免费的技术劳动力具有优势,而闭源竞争对手必须支付所有劳动力和计算成本。 Professor Ethan Malek: OpenAI的深度研究非常好。与Google的版本不同,Google的版本是许多来源的总结者,OpenAI更像是聘请一位有主见的、几乎达到博士水平的研究人员来跟踪线索。这是一种比Google方法更具代理性的解决方案,Google的方法探索性较小,但检查的来源要多得多。Gemini Flash thinking也是一个强大的推理模型,但需要使用Google AI Studio。 Benjamin DeKraker: Vibe check。O3 mini发布的反应非常平静,令人失望,在时间线上没有看到那么多兴奋。 Tier Taxis: 我不知道他们除了GPT-5级别的冲击之外还能发布什么来重新获得叙事动力。小型、非常强大的模型是一个好举动。 Kevin Bryan: Deep Research可以快速生成高质量的学术论文,这将对学术界产生重大影响。许多机构将需要改变以处理这样的技术,而且它每月都在变得更好。 Daria Anoukmaz: 我终于可以透露,自从星期五以来,我一直可以使用OpenAI的深度研究,而且我一直都在使用它。对于科学研究、出版、法律文件、医学、教育以及我的测试来说,这是一个绝对的改变者,但可能还有许多其他方面。我简直惊呆了。 Every Stan Shipper: 它绝对让我大吃一惊。一段时间以来第一个做到这一点的AI产品。对我来说,感觉就像这样。它是信息高速公路的专车。它是一辆双层旅游巴士,但你只是唯一的乘客,你参观的城市是人类知识的总和。它是C-3PO,但神经质较少。它是塞缪尔·塔利,但没有那么笨手笨脚。如果赫敏累了,那就是她。换句话说,它是好奇心的大炮。

Deep Dive

Chapters

This chapter discusses the rapid rise and subsequent banning of DeepSeek by many companies due to security concerns, particularly its data sharing practices with the Chinese government. It also explores the model's impact on the AI market and the implications for GPU demand.

Hundreds of companies blocked DeepSeek due to data leakage concerns.
DeepSeek's access to keystroke data raised security flags.
The model's efficiency improvements increased GPU demand.
Nations are starting to prioritize AI infrastructure independence.

Shownotes Transcript

OpenAI的最新深度研究代理声称可以承担所有经济上有价值工作的一定百分比。这是一个真正的突破,还是仅仅是雄心勃勃的营销手段?本期节目探讨了OpenAI最新的推理模型、Sam Altman关于开源的评论以及早期用户的反馈。这对研究、自动化和AI的采用意味着什么? 由以下机构为您呈现: 毕马威——访问 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠www.kpmg.us/ai⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 了解更多关于毕马威如何帮助您利用我们的AI解决方案创造价值的信息。 Vanta - 简化合规 - ⁠⁠⁠⁠⁠⁠⁠https://vanta.com/nlw 来自Superintelligent的代理准备情况审核——访问 https://besuper.ai/ 以请求您公司的代理准备情况评分。 AI每日简报帮助您了解AI领域最重要的新闻和讨论。订阅AI每日简报的播客版本,无论您在哪里收听:https://pod.link/1680633614 订阅时事通讯:https://aidailybrief.beehiiv.com/ 加入我们的Discord:https://bit.ly/aibreakdown

<raw_text>0 在今天的AI每日简报中,Sam Altman和OpenAI认为他们新的深度研究产品非常强大,可以完成世界上所有经济上有价值任务的个位数百分比。在此之前,DeepSeq本周风靡一时,但现在却被数百家公司禁用。AI每日简报是一个关于AI领域最重要的新闻和讨论的每日播客和视频。要加入讨论,请关注我们节目说明中的Discord链接。

欢迎回到AI每日简报头条新闻版,所有您需要的每日AI新闻,大约五分钟即可看完。我们今天首先关注DeepSeek传奇的最新进展,在R1模型席卷全球不到一周后,数百家公司现在正争先恐后地阻止其员工访问它。

据网络安全公司Armis称,70%的客户已请求阻止网站。竞争对手Netscope发现52%的客户阻止了该网站。现在让我们看看以色列的情况,Armis的首席技术官表示,“...最大的担忧是AI模型可能将数据泄露给中国政府。你不知道你的信息去了哪里。”当然,该模型来自一家中国公司,并且数据安全令人担忧,这一点已被广泛宣传。

服务条款明确指出,DeepSeek可以访问击键数据,并应要求与中国政府共享。尽管如此,一些美国政府雇员似乎仍在从他们的工作电脑上登录。彭博社报道称,五角大楼在周二晚些时候封锁了DeepSeek,这意味着员工可以使用它两天。

他们写道,五角大楼的IT专家仍在确定员工通过网络浏览器直接使用DeepSeek系统的程度。文章还指出,美国军方人员在2024年秋季已将其工作站下载了早期版本的DeepSeek模型。彭博社援引其消息来源的话说:“当时,这些下载并没有引起国防部安全团队的担忧,因为他们当时不清楚与中国的联系。”

当然,如果消息来源指的是在本地下载和运行模型,这未必是一个问题。相反,人们担心的是在中国托管的云服务上运行DeepSeq模型。尽管如此,军方人员似乎正在积极使用该模型。AskSage(一个政府授权的软件平台)的首席执行官Nicolas Chalain表示,数千名五角大楼员工正在通过他们使用DeepSeq。此外,DeepSeq还出现了更多安全问题。

和

他们还指出,这种漏洞允许“在DeepSeq环境中进行潜在的特权提升,这可能允许控制内部系统”。该漏洞已得到负责披露,并由DeepSeq团队迅速修复。目前尚不清楚是否还有其他人访问了数据库,但WIS的研究人员告诉Wired:“鉴于发现它有多么容易,这并不令人惊讶。”然而,如果围绕DeepSeq的安全环境持续令人担忧,那么其底层技术仍在展现其价值。

X公司的一名工程师Cash写道:“我看到的是,DeepSeek R1算法基本上有效,并且很多人都在复制它。我没有预料到这一点。我认为现在基本上结束了。”Mark Andreessen指出,DeepSeek目前的日活跃用户数量已达到ChatGPT的23%,每日应用程序下载量也远超后者。

Cash实际上有点惊慌失措,基本上说这是为什么前沿模型真正没有护城河的最佳例子。他写道:“不要投资OpenAI。不要与他们签订任何协议。不要与他们做任何生意。我整个周末都很忙,刚刚才了解到情况。我已经在4chan、我的Xfeed和自己的实验中看到了足够多的东西来证实它结束了。没有护城河。没有数据标注护城河。没有数据护城河。几乎没有计算护城河。结束了。我认为人们并没有真正理解这一点。”

说到DeepSeq和计算,Mistral董事会成员兼Andreessen Horowitz合伙人Anshni Mitha表示,DeepSeq的创新只会增加对GPU的需求。在Coder V2发布后,他一直在关注这家中国实验室的发布,已经有六个月了。当时,它在编码特定任务方面与OpenAI的GPT-4 Turbo不相上下,位居排行榜榜首。他的逻辑是,更高效的模型不会减缓芯片需求。公司只会利用他们可以获得的计算能力做更多的事情。

他说:“当人们说,‘好吧,Anj,Mistral已经筹集了10亿美元。DeepSeek是否意味着这10亿美元完全没有必要?’不,实际上,能够查看DeepSeek的效率改进、将其内化,然后投入10亿美元对其来说非常有价值。现在我们可以从相同的计算能力中获得10倍的输出。”他还指出,开源项目通过想要使用这些产品的人们的免费技术劳动而具有优势。闭源竞争对手必须支付所有劳动力以及计算成本。更多关于OpenAI最近关于开源的评论将在节目的主要部分进行讨论。

他认为,DeepSeek带来的主要变化是,各国开始将AI视为下一个基础设施,类似于电力和互联网。他认为,各国应该开始考虑基础设施独立性,这意味着每个国家都应该仔细考虑他们是否希望依赖中国模型或中国托管的数据,或者是否希望使用遵循西方法律和伦理的西方模型。但目前,他的主要问题是获得足够的推理能力。他给那些考虑放弃数据中心计划的公司发了一条信息,请求道:“如果你有多余的GPU,请寄给Ange。”

最后,欧盟AI法案即将迎来其第一个主要的合规期限。从周日开始,监管机构现在可以禁止使用他们认为构成不可接受风险的任何AI系统。该定义针对的是在各种情况下与公民互动的AI部署。一个非详尽的清单包括用于社会评分的AI、潜意识或欺骗性地操纵他人决定的AI、利用年龄、残疾或社会经济地位等漏洞的AI、试图根据人的外表预测其犯罪的AI。

参与这些用例的公司现在可能会受到罚款,无论其总部位于何处。最高罚款为3500万欧元,或前财政年度年收入的7%。英国律师事务所Slaughter & May的技术主管Rob Summeroy表示,罚款不会很快实施。预计各组织将在2月2日之前完全合规,但公司需要注意的下一个重要截止日期是8月。到那时,我们将知道哪些是主管部门,以及罚款和执行条款将生效。

今天的头条新闻就到这里。接下来是节目的主要部分。今天的节目由Vanta为您呈现。信任不仅仅是赢得的,更是被要求的。无论您是正在应对第一次审计的初创公司创始人,还是经验丰富的安全专业人员正在扩展您的GRC计划,证明您对安全的承诺从未像现在这样重要或复杂。这就是Vanta的用武之地。

企业使用Vanta通过自动化合规需求来建立信任,涵盖35多个框架,例如SOC 2和ISO 27001。集中的安全工作流程可以将问卷调查完成速度提高5倍,并主动管理供应商风险。Vanta可以通过将您与审计师和专家联系起来,帮助您启动或扩展您的安全计划,以便快速进行审计并建立您的安全计划。此外,由于平台中使用了自动化和AI,Vanta可以为您节省时间,让您可以专注于公司建设。

加入超过9000家全球公司,例如Atlassian、Quora和Factory,他们使用Vantage实时管理风险和改进安全。

如果2025年AI有一点是明确的,那就是代理即将到来。按行业划分的垂直代理、水平代理平台、基于代理的平台、

按功能划分的代理。如果您正在运营一家大型企业,那么明年您将尝试使用代理。鉴于这方面的技术还很新,我们所有人都会回到试点模式。

这就是为什么Super Intelligent在今年年初提供了一项新产品。这是一项代理准备情况和机会审核。在短短几周内,我们将与您的团队深入探讨哪些类型的代理适合您进行测试,您需要哪些类型的基础设施支持才能做好准备,并最终获得一套可操作的建议,让您做好准备,弄清楚代理如何改变您的业务。

如果您对代理准备情况和机会审核感兴趣,请直接联系我,[email protected]。请在主题行中注明“代理”一词,以便我知道您在谈论什么。让我们让您成为AI市场最具活力部分的领导者。您好,AI每日简报的听众们。我们快速休息一下,分享一些来自毕马威最新AI季度脉搏调查的非常有趣的发现。

您知道吗?67%的商业领袖预计AI将在未来两年内从根本上改变他们的业务?然而,并非一帆风顺。他们面临的最大挑战包括数据质量、风险管理和员工采用等问题。毕马威正走在帮助组织克服这些障碍的最前沿。他们不仅仅是在谈论AI,他们正在以切实可行的解决方案和实际应用引领潮流。

例如,超过一半的受访组织正在探索使用AI代理来处理行政事务和呼叫中心运营等任务。因此,如果您希望在AI领域保持领先地位,请关注毕马威。他们不仅仅是对话的一部分,他们正在帮助塑造它。访问kpmg.com/US了解更多关于毕马威如何推动AI创新的信息。

欢迎回到AI每日简报。正如我们上周多次讨论的那样,所有的讨论都围绕着DeepSeek展开。它有多强大,地缘战略影响是什么,它可能如何影响AI行业,它对股市意味着什么。这就是当时的讨论,很明显,OpenAI不喜欢屈居第二。

今天,我们将讨论OpenAI最新的推理模型发布、Sam Altman关于开源的一些有趣评论,以及为什么他们认为他们的新深度研究产品是一个代理,实际上可以完成地球上所有经济上有价值工作的百分之一甚至更多。首先,让我们从基本新闻开始。周五,OpenAI发布了O3 Mini,这是其推理模型系列中的最新产品。该模型承诺提供与O1系列模型相似的性能,但速度更快,成本更低。

OpenAI声称,在A/B测试中,外部测试人员在超过一半的时间里更喜欢O3 Mini的答案而不是O1 Mini的答案。他们还在处理困难的现实世界问题时观察到主要错误减少了39%。新模型包括三种不同的推理工作设置:低、中和高。这些设置决定了使用的计算量,并允许模型有更多时间来提出响应。在最高设置下,O3 Mini能够在一些与编码、科学和数学问题相关的基准测试中击败完整版本的O1。

OpenAI还在第一天就使该模型非常易于开发者使用。它已经可以通过API获得,并且是第一个支持函数调用、结构化输出和开发者消息的推理模型。OpenAI表示,这将使其在发布之初就具备生产就绪能力。

事实上,这种发布确实感觉受到了DeepSeek发布的影响。具体来说,与他们最近宣布某些模型但随后仅将其提供给付费甚至专业层级用户的模式不同,此模型也适用于免费用户。这使其成为第一个可在免费层级访问的推理模型,并打破了OpenAI通常的分阶段推出模式。

定价也比我们习惯于从OpenAI看到的更有竞争力。API访问比O1 Mini便宜63%,大约是DeepSeek R1的两倍。付费层级客户现在每天的速率限制为150个查询,是O1 Mini的三倍。

埃塞俄比亚·马利克教授评论道,反映了我们在很短时间内所看到的巨大变化,他还补充说,双子座闪速思考也是如此,但您必须使用谷歌AI Studio。

然而,对一些人来说,与通常围绕OpenAI的新模型的炒作相比,这次发布显得比较平静。Benjamin DeKraker(需要注意的是,他是XAI数据团队的成员)写道:“氛围检查。O3 mini发布的反应非常平淡,令人失望,在时间线上没有看到那么多兴奋。”Tier Taxis写道:“我不知道他们除了GPT-5级别的令人震惊的发布之外还能发布什么来重新获得叙事动力。小型、非常强大的模型是一个不错的举动。”

事实上,虽然这次发布并没有引起轰动,但很多人还是印象深刻。Coffee Vectors提示O3 Mini创建一个将在Blender中运行的3D水模拟。该模型创建了一个与渲染软件兼容的完整Python脚本,尽管它尝试了几次。

Mike Bespalov创建了一个功能齐全的图像到ASCII艺术转换应用程序。他写道:“好吧,OpenAI的O3太疯狂了。花了一个小时摆弄它,并构建了一个图像到ASCII艺术转换器,这正是我一直想要的工具。而且它运行得非常好。是的,旧模型可以做到这一点,但是使用O3我没有重写任何东西。没有调试,没有重试。只需几个提示,砰的一声,它就运行了。就像,完美地运行了。”

Minecraft Bench Project的贡献者Adana Singh展示了在创意任务上01和03 mini之间的差异有多么巨大。当被提示在Minecraft中构建一个令人惊叹的大型有机和史诗般的漂浮岛屿城市时,改进非常明显。

一些人甚至找到了让O3 Mini与DeepSeek的R1正面竞争的方法。O3 Mini创建了一个更好的逼真物理演示版本,展示了一个球在一个六边形周围弹跳。它还在一个简单的贪吃蛇游戏中胜过DeepSeek。Marc Adala Maria写道:“ChatGPT刚刚发布了O3,它是迄今为止最好的AI编码模型。它可以立即一键式创建完整的应用程序,人们正在做一些令人惊叹的事情。”尽管如此,我认为至少最初的炒作是比较低调的。然而,这并不是OpenAI周末准备的唯一事情。

周日,他们发布了一个名为Deep Research的新代理。该代理可以访问互联网进行多步骤研究并编译报告。OpenAI写道:“它在几分钟内就能完成人类需要数小时才能完成的工作。”该代理由完整版O3模型驱动,可以从文本、图像和PDF中吸收大量数据,还可以根据收集到的信息重新定向其研究。

OpenAI写道,正如OpenAI所说,这是为从事“密集型知识工作”的人们而设计的。他们写道,它在查找需要浏览众多网站才能找到的利基、非直观信息方面特别有效。

虽然它只发布了很短一段时间,但一些人已经提前获得了访问权限,并迅速分享了他们的想法。埃塞俄比亚·马利克教授再次写道:“OpenAI的深度研究非常好。与谷歌的版本不同,谷歌的版本是对许多来源的总结,OpenAI更像是聘请了一位有主见的、几乎是博士级别的研究人员来跟进线索。这更像是一种代理解决方案,而不是谷歌的方法,谷歌的方法探索性较小,但检查的来源要多得多。”

如果您想要一个概述,谷歌的版本非常好。如果您想要一位研究人员去挖掘几个来源,深入细节,但非常有主见,那么您需要OpenAI的版本。两者都不能访问付费研究和出版物,这目前限制了它们。多伦多大学战略管理副教授Kevin Bryan对该功能进行了测试。他要求它通过现代贸易理论的视角来分析1890年的麦金莱关税。它在10分钟内制作了一篇18分钟的学术风格论文,并附带参考文献。

布莱恩补充道:“...它一次能做得有多好?我的意思是,还不错。老实说,我收到的需要评审的论文比这还差。从这里到能够大幅加快研究速度的步骤的路径非常清晰。”他还认为这对大学有一些重大影响,并补充道:“...我认为这里研究的用途是显而易见的。我想说的是,对于学术界来说,你即将获得的AI垃圾数量是惊人的。在2022年,我指出本科生可以通过AI获得B。我确信,对于B级期刊来说,你可以在一天内发表你所谓的‘撰写’的论文。”

许多机构将需要改变以处理这样的技术,而且它每月都在变得更好。

尽管如此,我认为对许多人来说,他们的想法并非集中在学术用途上,而是集中在经济潜力上。Sam Altman评论道:“...这就像按需获得超级专家。它可以使用互联网,进行复杂的研究和推理,然后给你一个报告。它非常好,可以完成每天需要花费数小时和数百美元才能完成的任务。”他甚至还几乎不经意地补充道:“...我非常粗略的感觉是,它可以完成世界上所有经济上有价值任务的个位数百分比,这是一个疯狂的里程碑。”

现在,是的,需要谨慎对待,甚至可能需要大量的谨慎,因为A,这是目前据报道正在筹集更多资金的一家公司的首席执行官,B,他只是说“我非常粗略的感觉”。但尽管如此,他愿意说这个新的代理可以完成世界上所有经济上有价值任务的个位数百分比,这将代表超过万亿美元的价值,这从根本上来说是疯狂的。

杰克逊实验室的教授Daria Anoukmaz写道:“我终于可以透露,自从周五以来,我一直可以使用OpenAI的深度研究,而且我一直都在使用它。对于科学研究、出版、法律文件、医学、教育、我的测试来说,这是一个绝对的改变者,但可能还有许多其他方面。我简直惊呆了。”

Every Stan Shipper的观点更为夸张,他在推特上写道:“它绝对让我大吃一惊。一段时间以来第一个做到这一点的AI产品。对我来说,感觉是这样的。它是信息高速公路上的豪华轿车。它是一辆双层旅游巴士,但你只是唯一的乘客,你正在游览的城市是人类知识的总和。它是C-3PO,但没有那么神经质。它是塞缪尔·塔利,但没有那么笨手笨脚。如果赫敏厌倦了,她就是这样的。换句话说,它对于好奇的心灵来说是一把大炮。”

我现在才刚刚开始尝试使用它。我现在正在运行一些东西。在本周晚些时候,我肯定会做一个用例类型的节目。但这些都是大话和夸大的说法。我个人很高兴看到实际可能实现什么。

最后,我想谈谈Altman关于开源的评论。从纯粹的访问角度来看,DeepSeek和OpenAI已经将极其强大的推理器交到了许多人的手中。Noam Brown写道:“O1是在不到两个月前发布的。O3 Mini是在两天前发布的。Deep Research是在今天发布的。这是一个强大的工具,我迫不及待地想看看世界将如何利用它。但从这里开始,AI将继续快速发展。”

Sam Altman显然能够感受到这种加速。几个月来,他一直在公开讨论AGI的快速发展,在周末的一次Reddit AMA中,有人问AI模型的递归自我改进将是一个渐进的过程还是一个快速起飞的过程。Altman回答说:“我个人认为,快速起飞比几年前我认为的更有可能。也许是时候写点关于这个的东西了。”

Can OpenAI's Deep Research Really Do 1% of All Work? 18:27 Share

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

Deep Dive

Shownotes Transcript

Can OpenAI's Deep Research Really Do 1% of All Work?