We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
A
Anthropic
G
Google
谷歌通过推出Gemini 2.0 AI 模型和 AI Mode 搜索模式,进一步提升了其在人工智能领域的竞争力和创新能力。
O
OpenAI
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
Topics
OpenAI:为了确保人们能够自由地获取和受益于不断发展的AI,我们需要减少繁琐的法律和官僚障碍,同时抵制试图剥夺人们自由的专制力量。美国需要联邦立法来优先于州法律,以促进AI创新,并通过促进美国AI系统的全球采用来增强美国的竞争力。为了国家安全,美国应该禁止中国AI,并促使盟友效仿,因为中国AI存在潜在的操纵和安全风险。为了保持美国的AI领先地位,美国应该允许AI模型从受版权保护的材料中学习,即使这意味着要修改版权法。美国政府应该大力投资基础设施建设,特别是电力传输基础设施,并推动政府部门采用AI。美国需要积极的国际经济政策来支持AI创新,同时避免因监管不当而损害创新、国家竞争力和科学领导力。 Google:为了支持美国企业在全球市场的竞争力,美国应该放宽版权法,允许AI模型在训练中公平使用数据。美国应该放宽拜登时代的出口管制,并制定更精细的管制措施,以支持美国企业的合法市场准入,同时应对最相关的风险。美国政府应该增加对基础AI研究的投资,以保持其在全球AI领导地位方面的优势。为了明确责任,美国应该在AI模型提供商和用户之间明确责任划分,并避免过于宽泛的安全披露要求。 Anthropic:鉴于AGI即将到来,美国政府应该立即建立国家安全测试机制,对国内外AI模型的国家安全影响进行评估。为了国家安全,美国应该加强出口管制,包括对芯片的管制以及与托管大型芯片部署的国家之间的政府间协议。美国政府需要为AI带来的潜在经济影响做好准备,包括改进经济数据收集机制。 主持人:美国大型AI实验室就美国AI行动计划提出了不同的建议,这些建议反映了它们各自的优先事项和对美国AI政策的看法。美国AI行业普遍支持加速AI发展,并寻求政府在基础设施建设和政策制定方面的支持,以应对来自中国的竞争。美国AI行业对AI政策的建议融合了解管制、支持企业和政府补贴等多种方法,但其核心目标是加快AI发展,并应对来自中国的竞争。

Deep Dive

Chapters
Google's Gemini 2.0 Flash update includes a new native image generation feature that allows users to create and edit images using natural language prompts. This feature is multimodal, handling image and voice without conversion, and has gained significant attention for its capabilities.
  • Gemini 2.0 Flash update includes native image generation.
  • Multimodal architecture handles image and voice without conversion.
  • Users can create illustrated stories, edit images, and generate recipes with images.

Shownotes Transcript

今天在AI每日简报中,我们将讨论大型前沿模型实验室对美国AI行动计划的建议。在此之前,谷歌发布的新图像生成模型引发了广泛关注。AI每日简报是一个每日播客和视频节目,报道AI领域最重要的新闻和讨论。要加入讨论,请关注我们节目说明中的Discord链接。

我们有一段时间没有讨论图像生成模型了,但今天X平台上很多人都在谈论它。故事的开端是本周谷歌为Gemini 2.0 Flash发布了重大更新。大多数新功能都很重要,但也相对普通。该模型现在可以访问内存,可以访问用户的搜索历史以获取更多上下文,并且深度研究功能已更新以支持最新模型。然而,吸引所有关注的功能是一个新的原生图像生成功能。

谷歌LLM的一个主要区别在于其原生多模态架构。对于某些模型来说,事实上,这在一段时间内是标准做法,如果用户要求模型解释图像,则必须先将图像转换为文本描述,然后才能将其输入LLM。Gemini模型可以处理图像和语音,无需任何转换。

谷歌通过一些用例介绍了这项新功能。用户可以要求Gemini创作带插图的故事,将文本和图像交织在一起。该模型还可以使用自然语言提示编辑图像,这是迄今为止讨论最多的部分。例如,谷歌演示了该模型如何将一束鲜花添加到餐桌上。

还有一个演示展示了推理与图像生成的结合,Gemini展示了如何创建一个食谱,其中包含每个步骤完成的图片。谷歌还指出(这对我很重要),这种类型的图像生成可以产生非常清晰、强烈的文本。这个工具集的强大功能立即显而易见,互联网用户立即开始探索这项新功能还能做什么。Ethan Malek教授拍了一张泰勒·斯威夫特编织工具包的照片,并要求模型将其改成关于拿破仑的,包括更改文本。

Linus Ekenstam更改了自拍照的背景,将脸转向侧面,然后添加了一顶螺旋桨帽。前Anthropic开发者Chris移除了Dario Amadei的头发。我们已经看到这个使用文本编辑图像的功能理论上嵌入在其他应用程序中,但人们似乎对这个版本的完美性做出了回应。电子游戏概念艺术家Christian Panas生成了一个动漫角色。然后他要求模型将角色放置在电子游戏中,四处跑动,然后爬上墙。

Gemini根据提示创建了静止图像,在整个过程中保持一致性。他还证明了Gemini可以通过足够的提示进行简单的逐帧像素动画。这种风格的稳定性对于专业用例来说是一个巨大的突破。当然,这并不意味着该模型是完美的。Forvert尝试了类似的动画,从一个逼真但由AI生成的女孩的脸开始。大约20次迭代后,用他们的话来说,图像“慢慢地退化成恐怖片”。

尽管如此,这仍然是图像生成技术水平的重大进步,尤其是在可控性方面。能够从Gemini聊天机器人会话中原生进行图像生成,对许多人来说将是一个巨大的用户体验改进。Torio打趣道,当Sam Altman说期待图像生成的大幅改进时,他指的是Gemini。

接下来,说到最近备受关注的病毒式AI模型,Sesame开源了其病毒式语音助手Maya。两周前Maya预览时,它席卷了互联网。用户长时间进行对话,拥有所有账户都认为非常引人入胜的AI聊天体验。将事物称为“X的ChatGPT时刻”已经成为陈词滥调,但许多人认为Maya对AI语音来说正是如此。

该模型能够进行流畅的对话,它可以无缝地处理中断,它使用了微妙的人声技巧,例如停顿和节奏变化,所有这些都导致Sesame认为他们已经跨越了AI语音的恐怖谷,并取得了他们称之为“语音存在感”的东西。现在,该模型已开源,这意味着开发人员可以免费将其添加到他们的应用程序中。

Maya采用Apache 2.0许可证授权,对商业用途的限制很少。该模型附带少量语音,但用户可以使用几句话的语音样本添加自己的语音。TechCrunch的Kyle Wiggers使用Hugging Face上的演示说,他能够在不到一分钟内克隆自己的声音并开始生成语音。Sesame确实指出,该模型目前没有任何安全措施。他们正在使用荣誉制度,并要求用户未经同意不要克隆他人的声音或从事有害活动。

最后,中国大型科技公司阿里巴巴发布了其AI助手应用程序的新版本,首次为该平台添加了基本的代理功能。Quark应用程序的新版本现在已更新,可以利用阿里巴巴最新的Qen推理模型。助手现在可以进行AI搜索以及深度研究和任务执行。

我们关注阿里巴巴的部分原因是,他们今年发展速度极快,并且在合作方面也行动迅速,例如本周早些时候宣布他们正在与Viral Manus代理合作,将这种体验带入中国市场。除了这个故事的中国-美国部分之外,这也表明代理AI正在迅速成为普遍的默认用户界面。

阿里巴巴的这次发布明确是为了用代理助手取代通常的浏览体验。在美国,Perplexity和Deep Research等工具也在搜索领域占据市场份额,出现了类似的现象。代理编码助手正变得无处不在。语音模型的改进也降低了摩擦。

代理构建者Aditya Sharana写道:“在我看来,2025年下半年将是关于谁为日常使用创建最佳AI代理界面的竞争。真正的赢家将是开源者。”好了,这就是今天的AI每日简报头条新闻。接下来是主要内容。我们在节目中经常谈论代理,但如果你曾经想过:“我不想再谈论代理了,我只想实际构建和部署一些东西”,那么我很高兴今天能与你分享一些特别的东西。

我们已与Lindy合作,为那些只想深入研究代理的企业提供一种入门方法,一种在不超出预算的情况下快速行动并构建有意义的东西的方法。

前五家给我发送电子邮件(nlw.bsuper.ai,标题中包含“Lindy”)的公司将有机会与Lindy合作,构建一个实际的功能代理,以满足他们的特定需求,费用低于20,000美元。您可以构建的一些代理包括客户支持代理,也许可以自动化您网站上的回复。

您可以构建一个用于生成或筛选销售线索的SDR,或者您可以构建一个完全适合您内部沟通需求的代理,无论是做笔记、安排日程还是其他事情。Lindy不仅可以与您已经保存数据和信息的所有地方集成,它还是一个完全可扩展的平台,这意味着随着您雇佣越来越多的代理员工并真正构建您的数字员工队伍,Lindy将使这些代理能够互操作,并且基本上能够以无缝的方式一起工作。

所以,如果您有兴趣在几周内(而不是几个月或几年)全面深入研究代理,请给我发送电子邮件([email protected]),在标题中加上“Lindy”,让我们一起上线您的第一个数字员工。今天的节目由Vanta赞助。信任不仅仅是赢得的,更是被要求的。

无论您是正在进行首次审计的初创公司创始人,还是经验丰富的安全专业人员正在扩展您的GRC计划,证明您对安全的承诺从未像现在这样重要或复杂。这就是Vanta的用武之地。企业使用Vanta通过自动化超过35个框架(如SOC 2和ISO 27001)的合规需求来建立信任。集中的安全工作流程可以将问卷调查完成速度提高5倍,并主动管理供应商风险。

Vanta可以通过将您与审计师和专家联系起来,帮助您启动或扩展您的安全计划,以便快速进行审计并建立您的安全计划。此外,由于整个平台都采用了自动化和AI技术,Vanta可以为您节省时间,让您可以专注于公司建设。加入Atlassian、Quora和Factory等9000多家全球公司,使用Vanta实时管理风险并证明安全性。

在有限的时间内,本节听众可以享受Vanta的1000美元折扣,网址为vanta.com/nlw。网址为v-a-n-t-a.com/nlw,可享受1000美元折扣。听众朋友们,您是否负责安全部署和使用值得信赖的AI?毕马威(KPMG)有一份首创的AI风险和控制指南,为组织提供了一种结构化的方法,以开始识别AI风险并设计控制措施来降低威胁。

毕马威(KPMG)的AI风险和控制指南与众不同之处在于,它概述了实际的控制考虑因素,以帮助企业管理风险并加快价值创造。要了解更多信息,请访问www.kpmg.us/AI Guide。网址为www.kpmg.us/AI Guide。

今天,我们讨论的是AI政策。在过去一年左右的时间里,这实际上是一个未被充分探索的领域。我认为去年的美国选举周期挤压了对此进行讨论的空间。但随着AI的升温,显然存在地缘政治层面。但也存在政策和法规将如何与行业互动并塑造我们对这些工具以及我们如何使用这些工具的选择集的基本问题。

具体来说,特朗普新政府的首批行动之一是取消拜登的AI政策。就职几天后,特朗普总统签署了他自己的AI行政命令,废除了拜登总统签署的行政命令。就像许多行政命令一样,它充满了言辞,却缺乏政策,留下了真空。然后在2月下旬,政府开启了一个为期两周的评论期,征求他们所谓的AI行动计划的意见。

在本周,美国大型实验室一直在对这些政策发表意见,讨论下一步应该做什么。因此,今天我们将回顾OpenAI、谷歌和Anthropic的回应,看看它们有哪些相似之处和不同之处,以及这说明了美国AI政策应该是什么。周四,OpenAI发布了他们的提案。他们借用Sam Altman之前的著作来设定基调……

我们正站在繁荣的下一个飞跃——智能时代的门口。但我们必须确保人们拥有智能自由,这意味着在AI发展过程中,人们可以自由地访问和受益于AI,免受试图剥夺人们自由的专制力量以及阻止我们实现这些自由的法律和官僚机构的束缚。

在整个文件中,OpenAI的政策建议涉及五个主要主题。他们要求制定一项“确保创新自由的监管战略”。这主要关乎确保与联邦政府的合作是自愿的。它重申了OpenAI经常提出的观点,即美国实验室应该摆脱“过分繁重的州法律”的束缚。基本上,OpenAI表示,我们需要联邦立法来凌驾于州法律之上,

因为如果公司必须处理50个不同的监管辖区,它们将受到极大的阻碍。在出口管制方面,OpenAI希望专注于确保美国AI得到广泛应用。他们建议制定一项“将商业增长视角(包括总市场和可服务市场)应用于积极促进美国AI系统在全球的采用及其创造的自由”的战略。

在他们同时发布的一封较长的信函中,该公司还要求修改拜登的扩散规则,该规则将国家划分为三个等级,并对包括印度和以色列在内的中等国家施加限制。他们希望取消这些限制,只涵盖那些有阻止受控芯片进入中国的历史的国家。中国确实是OpenAI关注的一个重要领域。他们实际上提出了一项提案,即禁止中国AI,并迫使密切盟友效仿。他们以DeepSeek为例写道:

与华为一样,鉴于DeepSeek可能被迫由中国共产党操纵其模型以造成损害,在关键基础设施和其他高风险用例中,基于DeepSeek模型存在重大风险。由于DeepSeek同时受到国家补贴、国家控制且免费提供,其用户的代价是他们的隐私和安全。他们报告中一句更引人注目的说法是:“中国共产党将违反美国知识产权视为一种特性,而不是缺陷。”

一方面,这里似乎存在值得注意的矛盾。OpenAI希望减少出口管制,以允许美国AI在全球部署,但同时又建议如果各国想要保持一级地位,就必须强制禁止中国AI。

我认为这比看起来不那么前后矛盾。它基本上都归结为更严格地关注中国作为等式中存在问题的国家,以及更强调美国的竞争力,并将获得非中国模型作为一种竞争力。

OpenAI提出的更具争议性的建议之一是,从版权法中剔除允许AI训练的部分。OpenAI试图将其定义为一种仍然保护内容创作者的平衡方法,但断言:“……联邦政府既可以确保美国的自由,也可以从AI中学习,并通过保持美国AI模型学习受版权保护材料的能力来避免将我们的AI领先地位拱手让给中华人民共和国。”他们评论说,如果中国开发者可以无限制地访问数据,而美国公司却无法获得合理使用权,那么AI竞赛实际上就结束了。

OpenAI以欧盟模式为例,该模式允许数据挖掘,但权利持有者拥有广泛的选择退出权。他们指出,英国也正朝着这个方向倾斜,目前正在讨论修改其版权法。此后,Twitter上的一大讨论点是人们指出OpenAI援引国家安全问题来证明版权例外是合理的,但无论你是否认为这证明版权例外是合理的(合理的人对此可能有不同意见),

我认为我们必须假设中国在允许其公司使用受版权保护的材料训练模型时,将100%不会关心版权。因此,如果我们决定关心这一点,如果我们决定版权持有者的权利足够重要,足以阻止使用他们的材料进行训练,那么这实际上是在接受美国将让中国获得的优势。再说一次,我并没有对哪一方做出判断。我只是说,这隐含地是这场讨论的一部分。

在基础设施方面,OpenAI提出了广泛的政府投资建议,包括开源政府数据集以及其他大小不一的措施。他们最大的要求是大幅建设电力传输基础设施,其规模相当于20世纪50年代的国家公路建设。最后,OpenAI建议大力推动政府部门采用AI。他们提出了一系列政策变化,以简化这一过程,但其根本目的是鼓励公私合作更新政府的技术堆栈。

他们对战略的总体看法是:“美国需要奉行积极的国际经济政策,以倡导美国价值观并支持国际AI创新。他们说,长期以来,AI政策制定对风险给予了不成比例的关注,往往忽略了误导性监管可能对创新、国家竞争力和科学领导力造成的代价,这种动态在新政府领导下正在开始转变。”

谷歌也要求从版权侵权中获得类似的合理使用豁免权,用于训练数据。他们并没有将版权执法定义为国家安全风险,但声称可以允许合理使用,“不会对权利持有者造成重大影响”。他们的论点主要基于商业,即与数据权利持有者进行谈判既漫长又极不可预测。该公司还呼吁取消拜登时代实施的出口管制,呼吁将其替换为“精心设计的措施,以支持美国企业的合法市场准入,

同时针对最相关的风险。”他们再次指出,给公司增加负担可能会使它们在全球市场中处于劣势。此外,他们还鼓励政府机构采用AI,并制定统一的联邦法律以及政府对基础设施的支出。有趣的是,谷歌似乎对特朗普政府削减基础研发预算的举动表示异议。他们声称,“长期持续投资于AI研究使美国在全球AI领导力竞争中获得了‘至关重要的优势’。”

谷歌反而呼吁政府大力加强这些努力。

在安全方面,谷歌似乎呼吁提供类似于90年代互联网公司获得的责任保护。他们呼吁明确界定模型提供商和用户之间的责任,并指出:“……在AI生命周期中对特定步骤拥有最多控制权的参与者应承担该步骤的责任和任何相关责任。在许多情况下,AI模型的原始开发者对部署者如何使用它几乎没有可见性或控制权,并且可能不会与最终用户互动。”

谷歌还批评欧盟的安全披露要求过于宽泛。他们反对任何要求“……接下来是Anthropic,他们的提案具有非常不同的优先级,这似乎与这家专注于安全的公司相符。

他们的核心前提(首席执行官Dario Amadei最近在采访中一直在阐述)是AGI即将到来,政府只有几年时间来准备。他们的首要建议是为模型能力建立国家安全测试。Anthropic建议对国内和国外模型进行国家安全影响测试。他们关于出口管制的提案是大幅加强出口管制。除了芯片管制外,他们还呼吁要求在托管大型芯片部署的国家之间达成政府间协议,

并降低无需许可的门槛。Anthropic还建议将AI实验室纳入情报机构。他们呼吁与情报机构建立保密沟通渠道,为AI专业人员加快安全许可流程,以及“制定下一代AI基础设施安全标准”。与其他实验室一样,Anthropic呼吁扩大能源基础设施规模,并加快政府AI的采用。他们的最终建议借鉴了Amodei最近的讨论,建议政府需要开始为AI的经济影响做好准备。

他们写道:“为了确保AI的好处能够广泛地惠及整个社会,我们建议对经济数据收集机制(如人口普查局调查)进行现代化改造,并为经济可能发生的重大变化做好准备。”如果你对Amadei最近所说的话有所关注,你就会明白这套优先事项的来源。Dario指出,中国以“大规模产业间谍活动”而闻名。

他评论说,Anthropic和所有AI公司几乎肯定都是目标,并补充道:“这些算法秘密中有很多价值1亿美元的秘密,它们只是一些代码行。而且你知道,我肯定有些人试图窃取它们,他们可能已经成功了。”这并非毫无根据的偏执,因为许多政府官员警告说,在过去一年中,试图渗透科技公司的外国间谍活动急剧增加。一些人甚至指出,在核科学时代,整个领域都是机密信息。

但在AI时代,构建先进技术的方方法在硅谷的家庭聚会上公开讨论。那么这一切的总和是什么呢?有两件事引起了我的注意。提交内容的总体基调是非常加速主义的。即使是Anthropic更危言耸听的提案也没有要求减缓AI的发展速度。相反,它基本上要求同时加速某些安全方面的努力。而且很明显,整个美国行业都希望加快速度,以击败中国,开发强大的AI。

在方法方面,提出了放松管制、支持企业和政府补贴的混合方法。但最大的共识是,每个人都希望取消限制,并建立一个明确的政策结构,允许实验室加速发展。如果你一直在关注态度的变化,这一切都不足为奇。只是语气与一年前,尤其是两年前相比发生了很大的变化,这一点非常值得注意。这里基本上没有对普遍的安全问题做出任何让步。

并且,在提出安全建议的程度上,这些建议都得到了明确的定义,并附带了具体的缓解措施。简而言之,如果你认为现在发展速度很快,那你就大错特错了。当然,特朗普政府将如何处理这一切还有待观察,但我们当然会在情况出现时进行报道。现在,这就是今天的AI每日简报的全部内容。一如既往地感谢您的收听。下次再见,平安。