(00:00:00) 简介/闲聊 (00:04:14) 新闻预览 (00:05:28) 响应听众评论/更正 工具和应用 (00:07:10) Adobe 的 AI 视频模型已推出,并已集成到 Premiere Pro 中 (00:11:52) Adobe 预览了构建 3D 场景、动画文本和消除干扰的 AI 工具 (00:15:43) Adobe 的 Project Super Sonic 使用 AI 为您的视频生成音效 (00:17:05) YouTube 将 AI 音频生成工具扩展到所有美国创作者 (00:20:29) 所有 Gemini 用户现在可以使用 Imagen 3 生成图像 (00:22:27) Meta AI 今天将在包括英国在内的六个国家推出 (00:24:27) OpenAI 发布秘密元提示——与 Anthropic 的方法大相径庭
应用和业务 (00:27:46) 特斯拉的“我们,机器人”大型活动因“花招”和机器人、Cybercab 和 Robovan 的模糊时间表而受到批评 (00:37:25) OpenAI 宣布与 Hearst 达成内容协议,包括《Cosmopolitan》、《Esquire》和《旧金山纪事报》的内容
项目和开源 (00:47:59) OpenR:一个增强大型语言模型推理能力的开源 AI 框架 (00:49:54) MLE-bench:在机器学习工程中评估机器学习代理 (00:56:29) OpenAI 发布 Swarm:一个用于构建、编排和部署多代理系统的实验性 AI 框架
研究和进步 (00:59:23) 两位科学家因开创性的 AI 研究而获得诺贝尔物理学奖 (01:05:22) 三位科学家因预测和创造蛋白质而获得诺贝尔化学奖 (01:09:09) 苹果研究人员建议,大型语言模型无法进行“真正的逻辑推理” (01:13:05) GSM-Symbolic:理解大型语言模型中数学推理的局限性
政策和安全 (01:14:34) Anthropic 首席执行官在 15,000 字的 AI 赞歌中全力以赴地成为技术乐观主义者 (01:23:04) Google 将帮助建造七座核反应堆为其 AI 系统供电 (01:24:11) 大型语言模型知道比它们显示的更多:关于大型语言模型幻觉的内在表示
合成媒体和艺术 (01:26:26) Adobe 推出面向创作者的免费网络应用,以推动内容真实性
(01:29:13) 尾声
(00:00:00) 简介/闲聊 (00:04:14) 新闻预览 (00:05:28) 响应听众评论/更正 工具和应用 (00:07:10) Adobe 的 AI 视频模型已推出,并已集成到 Premiere Pro 中 (00:11:52) Adobe 预览了构建 3D 场景、动画文本和消除干扰的 AI 工具 (00:15:43) Adobe 的 Project Super Sonic 使用 AI 为您的视频生成音效 (00:17:05) YouTube 将 AI 音频生成工具扩展到所有美国创作者 (00:20:29) 所有 Gemini 用户现在可以使用 Imagen 3 生成图像 (00:22:27) Meta AI 今天将在包括英国在内的六个国家推出 (00:24:27) OpenAI 发布秘密元提示——与 Anthropic 的方法大相径庭
应用和业务 (00:27:46) 特斯拉的“我们,机器人”大型活动因“花招”和机器人、Cybercab 和 Robovan 的模糊时间表而受到批评 (00:37:25) OpenAI 宣布与 Hearst 达成内容协议,包括《Cosmopolitan》、《Esquire》和《旧金山纪事报》的内容
项目和开源 (00:47:59) OpenR:一个增强大型语言模型推理能力的开源 AI 框架 (00:49:54) MLE-bench:在机器学习工程中评估机器学习代理 (00:56:29) OpenAI 发布 Swarm:一个用于构建、编排和部署多代理系统的实验性 AI 框架
研究和进步 (00:59:23) 两位科学家因开创性的 AI 研究而获得诺贝尔物理学奖 (01:05:22) 三位科学家因预测和创造蛋白质而获得诺贝尔化学奖 (01:09:09) 苹果研究人员建议,大型语言模型无法进行“真正的逻辑推理” (01:13:05) GSM-Symbolic:理解大型语言模型中数学推理的局限性
政策和安全 (01:14:34) Anthropic 首席执行官在 15,000 字的 AI 赞歌中全力以赴地成为技术乐观主义者 (01:23:04) Google 将帮助建造七座核反应堆为其 AI 系统供电 (01:24:11) 大型语言模型知道比它们显示的更多:关于大型语言模型幻觉的内在表示
合成媒体和艺术 (01:26:26) Adobe 通过专为创作者设计的免费网络应用程序推动内容真实性
(01:29:13) 尾声
(00:00:00) 开场白/闲聊 (00:04:14) 新闻预览 (00:05:28) 响应听众评论/更正 工具和应用 (00:07:10) Adobe 的 AI 视频模型已推出,并已集成到 Premiere Pro 中 (00:11:52) Adobe 预告了构建 3D 场景、动画文本和消除干扰的 AI 工具 (00:15:43) Adobe 的 Project Super Sonic 使用 AI 为您的视频生成音效 (00:17:05) YouTube 将 AI 音频生成工具扩展到所有美国创作者 (00:20:29) 所有 Gemini 用户现在可以使用 Imagen 3 生成图像 (00:22:27) Meta AI 今天将在包括英国在内的六个国家推出 (00:24:27) OpenAI 发布了秘密元提示——与 Anthropic 的方法大相径庭
应用和商业 (00:27:46) 特斯拉的“我们,机器人”大型活动因“花招”和机器人、Cybercab 和 Robovan 的模糊时间表而受到批评 (00:37:25) OpenAI 宣布与 Hearst 达成内容协议,包括《Cosmopolitan》、《Esquire》和《旧金山纪事报》的内容
项目和开源 (00:47:59) OpenR:一个增强大型语言模型推理能力的开源 AI 框架 (00:49:54) MLE-bench:在机器学习工程中评估机器学习代理 (00:56:29) OpenAI 发布 Swarm:一个用于构建、编排和部署多智能体系统的实验性 AI 框架
研究和进步 (00:59:23) 诺贝尔物理学奖授予两位开创 AI 研究的科学家 (01:05:22) 诺贝尔化学奖授予三位预测和创造蛋白质的科学家 (01:09:09) 苹果研究人员建议,大型语言模型无法进行“真正的逻辑推理” (01:13:05) GSM-Symbolic:理解大型语言模型中数学推理的局限性
政策和安全 (01:14:34) Anthropic 首席执行官在 15,000 字的 AI 赞歌中全力以赴地成为技术乐观主义者 (01:23:04) Google 将帮助建造七座核反应堆为其 AI 系统供电 (01:24:11) 大型语言模型知道比它们显示的更多:关于大型语言模型幻觉的内在表示
合成媒体和艺术 (01:26:26) Adobe 通过专为创作者设计的免费网络应用程序推动内容真实性 (01:29:13) 结束语
0 所以,是的,再一次,它侵蚀了……你知道,历史报纸和杂志的商业模式。嗯,你知道,它们当然总是会有广告,但你也要付费才能让它们送到你的门口。现在很少有人这么做了。这已经严重影响了他们的商业模式。所以,现在他们比以往任何时候都更依赖广告,特别是数字广告,而现在生成的 AI 对这种模式构成了威胁。
1 所以我很高兴他们能够从能够创造这些高价值内容中获得一些收入……因为,是的,如果我们最终生活在一个世界里,你只需要让生成模型从网上仇恨内容中学习。那可能不太理想,不过也许我们可以想出一些方法让它发挥作用。所以,是的,从 OpenAI 这样的角度来看,为生成内容付费,高价值内容,是有意义的,这样他们就能收回现在可能在未来失去的一些钱。
2 我想,大概是因为人们无法像以前那样频繁地点击谷歌搜索上的广告。从长远来看,这不仅对出版商的广告商业模式提出了有趣的问题,而且对像谷歌这样的公司也提出了有趣的问题,因为你知道,他们自己的工具,比如谷歌 AI 搜索。有传闻说谷歌内部有类似 ChatGPT 的能力,但它没有发布,因为这会侵蚀谷歌通过展示广告和点击广告获得核心收入的商业模式。
3 你知道,数字归因,当你拥有能够提供人们现在想要的信息的 AI 模型时,大多数情况下,这些信息以文本显示,也许你可以在旁边偷偷放一些展示广告。但在未来,你将越来越多地通过语音和音频与这些工具互动。那么,如何在其中插入赞助呢?也许你可以让结果得到提升,我想人们会采取某种方式。但无论如何,谷歌的商业模式似乎都会受到侵蚀,你知道,他们过去几十年来在搜索领域拥有绝对的……有效垄断和主导地位,所有这些都是通过广告付费的,这可能会受到影响。
4 是的,所以你知道,有很多事情需要考虑。我认为,总的来说,这是这类故事中的一类,它们不是你看到的那些热门头条新闻,它们不是在推特上引起轰动的话题。
5 但实际上,这非常重要,值得我们注意和思考,因为它真正反映了互联网的未来和搜索的未来,对吧?所以,你知道,与 OpenAI 的明显交易相比,Perplexity AI 也做过类似的事情。他们有一个收入分享模式。
6 他们有一个出版商计划,其中包括像《财富》、《时代》和《企业家》这样的公司加入,这非常符合他所说的,Perplexity AI 的 AI 源自 GPT,将显示其来源,提供链接。但大部分情况下,你不会点击链接去查看来源,你只会相信 AI 说的话。所以,我们确实需要一种新的商业模式,为实际撰写新闻的人提供报酬,对吧?
7 而且,这越来越像是一种商业模式,而不仅仅是那样,你还在推特上看到过,你读过,请务必阅读,他们签订了许可或数据使用协议,我相信谷歌也是其中之一,这是互联网的另一个方面,我们在这个平台上提供的所有内容都可以被用于数据。所以,这是一个有趣的事实,它反映了互联网的整体发展以及我们整个信息生态系统的发展。尽管它看起来有点枯燥。
8 在你的演讲中,我想到了一件事,你稍微提到了它,这让我想到了一点,我认为这非常重要,那就是道德困境,因为这种商业模式,你谈到如何……你知道,谁会支付创建高价值内容的记者?
9 所以,一旦你是一家报纸或杂志,也许在不久的将来,你的大部分收入都来自 AI 公司,这会如何影响你对 AI 公司的报道?如果像 OpenAI 这样的参与者,并成为文化整体不可避免的垄断者,真的很有影响力。同时,他们支付了我们获取信息的所有信息来源的费用。这存在一个道德困境。这很有趣,你得到……
10 关于偏见报道,确实有很多有趣的应用,比如广告模式。你已经看到相当多的……你知道,转向点击诱饵,基本上是获得吸引人们点击并阅读文章的标题和内容。这种转变,对吧?这并不那么重要了。
11 所以,也许人们会开始报道一些流行的东西,但人们会问,对吧?嗯,还有很多关于这个的话题。例如,《纽约时报》已经很大程度上转向了订阅模式。
12 所以,越来越多的媒体出版商需要订阅类型的收入来源,这有点不同。无论如何,我认为你已经足够开放了,但是,当 OpenAI 支付更多媒体出版商的项目和开源项目时,我们有一些有趣的案例,从 OpenR 开始,这是一个增强大型语言模型推理能力的开源 AI 框架。这实际上与描述整个系统的论文相结合,而不仅仅是一个开源项目。
13 其基本思想是提供一个框架,让你能够使用开源模型进行各种推理。这得到了许多组织的支持。伦敦大学学院、利物浦大学、香港科技大学、中国科技大学以及其他一些大学。
14 所以他们详细介绍了模型的工作原理。他们将其视为一个 MDP,对吧?你有一些连续步骤,基本上是可用的奖励。对于每个步骤,你都可以提供奖励。我们有整个训练过程,让推理能够逐步进行良好的推理。
15 他们确实展示了一些有趣的实证结果,你可以看到,随着推理预算的增加……你已经谈论了很多关于推理扩展的内容,在训练后,你可以根据时间和资源进行扩展。你给你的模型,让它能够生成更好的答案。所以,我们也进行了一些实验,证明这种方法确实会产生更好的输出。
16 甚至比简单的多数投票还要好。不幸的是,这些来自一些大学。所以,它并没有像小型模型那样在更大规模上进行评估。
17 但无论如何,我想我们会看到很多类似的开源努力,以复制或实现各种推理。我们还有另一个开源项目,这次是一个基准。
18 这是 MLE 基准,它在机器学习工程中评估机器学习代理,实际上来自 OpenAI。这个基准旨在评估机器学习工程任务。
19 如果你对这些感兴趣,你可能会觉得这很有趣。这个基准包括来自 Cargo 的五个机器学习工程相关比赛。这是一个平台,已经存在了一段时间。
20 他们确实有一些比赛,你可以提交机器学习问题的答案,如果你表现出色,你实际上可以获得报酬,并且有很多参与者。这是一个相当大的平台。在这个基准中,我们让代理尝试赢得这些比赛,他们对使用工具采取行动的不同方法进行了有趣的比较。
21 所以,有一个名为 Aid 的工具,专门用于在 Cargo 比赛中执行解决方案研究。在他们的实验中,我们实际上让代理自主运行长达 24 小时。所以,如果我们查看 APT40m 实验室,他们一次有 216 个步骤,GPT-Aid 有 2 小时。
22 他们表示,在 24 小时的时间里,他们的研究中有很多节点。所以,在这一点上,它变得非常自主,基准测试相当严格。即使对于表现最好的模型或一个预览版本来说,要获得金属,也就是要比大多数人表现更好,也只有大约 17% 的时间能够做到。
23 而且,这些模型经常会产生无效的输出。所以,即使是最好的模型,也只有 82% 的输出是有效的,希望大多数人类都能做到。如果你不使用这个名为 Aid 的工具,它专门用于 Cargo,那么你的表现会差很多。
24 你的表现会下降到个位数百分比的金属排名,并且有效输出率接近 40%。所以,这是一个非常引人入胜的新基准,在代理人工智能、机器学习工程和 AI 领域。我们希望看到,你知道,它不会像许多 AI 基准测试那样失败。是的。
25 这很棒,完全正确。是的,我们必须不断提出越来越复杂的基准测试。
26 几年前,这看起来还是一个疯狂的基准测试。你为什么要创建这个?很明显,机器可以做到这一点。
27 我不知道机器在我的有生之年是否能够做到这一点。我的意思是,这是你在 SuperDataScience 播客中讨论过的,我们谈论过,对我们两人来说,PT4 的发布都是令人震惊的时刻。
28 对我们两人来说,那都是一个“哇,AGI 在我们有生之年,AGI 在我们有生之年”的时刻。这很可能正在发生。
29 嗯,所以,你知道,如果有人说他们正在创建一个基准测试,让你在这些非常困难的机器学习工程任务上进行评估,这些任务需要大量的思考、大量外部信息和大量步骤,我会说,这简直是浪费时间。我不知道我们是否有机器能够在我们的有生之年做到这一点。
30 现在,你知道,如果这个 Aid 框架是 OpenAI 在这个基准测试中取得成功的关键部分,那么获得预览版本,当然,它在所有其他模型中都表现出色,他们使用的八个框架,他们也使用了 GPT-4 或他们使用的最大的模型,也就是 4 或 5B,以及 3.5B。你知道,使用这些模型的八个框架,正如你所说,这是你唯一能获得任何体面表现的方法,除了使用 Aid 方法之外,最好的分数是获得这些比赛中任何金属的 4% 机会。嗯,或者你知道,也许这里值得关注的是中上水平的表现。
31 所以,嗯,你知道,你可以在没有 Aid 的情况下获得 7% 的表现高于中位数……在没有 Aid 的情况下,你可以在没有 Aid 的情况下获得 7% 或更好的表现,使用我刚才提到的任何模型,GPT-4、3.5B、3.5B,以及 1 个预览版本,不会让人感到惊讶,因为人们使用 1 个预览版本,它在所有参与的模型中都表现出色。所以,你知道,下一个最好的模型是 GPT-4,使用 Aid 的情况下,其高于中位数的分数为 14%,而 1 个预览版本则翻了一番,达到了 29%。
32 你知道,我们知道完整的模型很快就会发布。有趣的是,即使是 OpenAI 的内部研究人员也无法使用它。我想这只是开发阶段太早了。
33 嗯,所以,是的,当它发布时,你就可以期待它继续提高。所以,你开始看到,好的,你知道,这些都是相对较低的百分比。
34 你知道,最好的方法在这里只能获得三分之一的答案高于中位数的人类表现。但这些都是非常困难的任务,有如此多的步骤。我敢打赌,一年后,我们会看到这样的情况,不是 30%,而是 80%。
35 完全正确,我认为这几乎肯定的情况。而且,正如你所说,考虑我们在这里得到的东西确实很令人震惊,对吧?你得到一个完全相同的答案,它基本上说明了如何解决问题,并且在使用 Aid 的情况下,它确实如此。
36 他们让你运行 24 小时,他们进行各种搜索过程等等。所以,随着时间的推移,这个基准测试的得分会越来越高。这有点有趣,你知道,最好的系统能够在这些比赛中获得 10% 的金牌。
37 所以,也许你可以通过获得更好的方法来获得一些钱,尽管这可能比实际赢得比赛更费力,而且 OpenAI 现在还没有发布。这次它更像是一个包,这个包是 Swarm,一个用于构建、编排和部署多智能体系统的实验性 AI 框架。所以,这与一种类似食谱的帖子相结合,它基本上是关于编排代理、例程和移交的示例。
38 所以,在 OpenAI 的 GitHub 上,他们发布了 Swarm 包,这非常大胆,前面写着“实验性”、“教育性”,对吧?所以我发现这很有趣。他们强调这是示例框架,不应作为独立库使用,主要用于教育资源。Swarm 的想法是你可以拥有代理,例如,根据某些指令进行持续互动,然后它们可以进行移交,你可以说,好的,现在你与我们的代理互动,就像如果你打电话给你的健康保险公司或类似的东西,你与一个人交谈,然后转接给你另一个人,这就是这里的基本思想。所以,是的,在某种程度上,这并不是什么大事,因为这是实验性的和教育性的,但这确实表明 OpenAI 继续投资于 AGI,并让 AI 变得更加自主。
39 是的,这绝对值得发布。我很高兴我们在这期节目中讨论了它。我看到这可能是过去一周在社交媒体上最受关注的事情,是的,我认为 AGI 是一个非常令人兴奋的话题,这些系统变得越来越复杂,多智能体系统能够协同工作。
40 顺便说一句,我要宣传一下我正在做的事情,它将在 12 月 4 日星期三,美国东部时间下午 9 点举行。我正在举办一个在线会议,主题是代理 AGI。我们邀请了一些专家,都是这个领域的优秀演讲者,他们将讨论多智能体系统以及如何在实践环节中使用 Python 开源工具来开发自己的多智能体系统以完成特定任务。
41 所以,我认为这是最……当我考虑这个即将举行的在线会议的主题时,我心想,代理 AGI,毫无疑问。是的。我认为这非常令人兴奋,并且会讨论 Swarm。嗯,12 月 4 日。
42 然后是研究和进步。我们有一些通常的案例。通常我们关注论文等等。但我能想到的唯一能将这些新闻放在其中的地方是这个部分,当有诺贝尔奖授予一些 AI 人员时。
43 所以,首先,诺贝尔物理学奖授予了两位科学家,约翰·霍普菲尔德和杰弗里·辛顿,他们基本上对神经网络的发展以及大型神经网络的深度学习做出了巨大贡献。你知道,杰弗里·辛顿是这些大人物之一,他对 AI 历史产生了巨大影响,而不仅仅是你可能想象的那样。在过去二十年中,他一直是一个重要人物。
44 他参与了……某种程度上,重新点燃了人们对大型神经网络的兴趣,在 2006 年发表了一些工作,他利用先前工作的想法来创建初始化方案,并真正证明,也许这是第一次,你可以让大型神经网络表现出色。但也可以追溯到几十年,到 80 年代,杰弗里·辛顿在推广神经网络方面也发挥了重要作用,通过发布和……几乎是记录了反向传播算法,这是神经网络训练的基础。所以,这在当时并不是什么新鲜事。
45 你知道,已经有一些关于相同算法的先前发展,但杰弗里·辛顿与其他一些人发表的论文使它变得非常易于访问和理解,并在 80 年代让神经网络变得非常热门。后来,辛顿的工作也导致它在 2000 年代变得非常热门。这就是我们今天所处的状态。
46 所以,你知道,许多人,包括我认为辛顿本人,都认为这有点有趣。但他们获得了物理学奖。没有计算机科学的诺贝尔奖。
47 所以,嗯,你知道,嗯,这有点有趣,但无论如何,它确实反映了这种影响。约翰·霍普菲尔德,他与杰弗里·辛顿是重要的合作者。他们一起研究了玻尔兹曼机,这有点像物理学,结果并没有成为一个重要人物,但他们确实为神经网络的发展做出了贡献。
48 是的。所以,我最初是为了社交媒体帖子而研究了这一点,然后现在是为了我的播客和 SuperDataScience 播客。嗯,它们很快就会发布。我不知道它们是否会在本周发布,或者是否会在本周之后发布,我甚至不想讨论这个问题。
(00:00:00) 简介/闲聊 (00:04:14) 新闻预览 (00:05:28) 响应听众评论/更正 工具和应用 (00:07:10) Adobe 的 AI 视频模型已推出,并已集成到 Premiere Pro 中 (00:11:52) Adobe 预告了构建 3D 场景、动画文本和消除干扰的 AI 工具 (00:15:43) Adobe 的 Project Super Sonic 使用 AI 为您的视频生成音效 (00:17:05) YouTube 将 AI 音频生成工具扩展到所有美国创作者 (00:20:29) 所有 Gemini 用户现在可以使用 Imagen 3 生成图像 (00:22:27) Meta AI 今天将在包括英国在内的六个国家推出 (00:24:27) OpenAI 发布秘密元提示——与 Anthropic 的方法大相径庭
应用和业务 (00:27:46) 特斯拉的“我们,机器人”大型活动因“花招”和机器人、Cybercab 和 Robovan 的模糊时间表而受到批评 (00:37:25) OpenAI 宣布与 Hearst 达成内容协议,包括 Cosmopolitan、Esquire 和旧金山纪事报的内容
项目和开源 (00:47:59) OpenR:增强大型语言模型推理能力的开源 AI 框架 (00:49:54) MLE-bench:在机器学习工程中评估机器学习代理 (00:56:29) OpenAI 发布 Swarm:用于构建、编排和部署多代理系统的实验性 AI 框架
研究和进步 (00:59:23) 诺贝尔物理学奖授予两位开创 AI 研究的科学家 (01:05:22) 诺贝尔化学奖授予三位预测和创造蛋白质的科学家 (01:09:09) 苹果研究人员建议大型语言模型无法进行“真正的逻辑推理” (01:13:05) GSM-Symbolic:理解大型语言模型中数学推理的局限性
政策和安全 (01:14:34) Anthropic 首席执行官在 15,000 字的 AI 赞歌中全力以赴地成为技术乐观主义者 (01:23:04) Google 将帮助建造七座核反应堆为其 AI 系统供电 (01:24:11) 大型语言模型知道比它们显示的更多:关于大型语言模型幻觉的内在表示
合成媒体和艺术 (01:26:26) Adobe 通过专为创作者设计的免费网络应用程序推动内容真实性
(01:29:13) 尾声
阅读我们的文本通讯并评论播客:https://lastweekin.ai/ 如果您想成为通讯、播客或两者兼而有之的赞助商,请填写此表格。 请将您的问题和反馈发送至 [email protected] 和/或 [email protected]
(00:00:00) 开场白/闲聊 (00:04:14) 新闻预览 (00:05:28) 响应听众评论/更正 工具和应用 (00:07:10) Adobe 的 AI 视频模型已推出,并已集成到 Premiere Pro 中 (00:11:52) Adobe 预览了构建 3D 场景、动画文本和消除干扰的 AI 工具 (00:15:43) Adobe 的 Project Super Sonic 使用 AI 为您的视频生成音效 (00:17:05) YouTube 将 AI 音频生成工具扩展到所有美国创作者 (00:20:29) 所有 Gemini 用户现在可以使用 Imagen 3 生成图像 (00:22:27) Meta AI 今天将在包括英国在内的六个国家推出 (00:24:27) OpenAI 发布秘密元提示——与 Anthropic 的方法大相径庭
应用和业务 (00:27:46) 特斯拉的“我们,机器人”大型活动因“花招”和机器人、Cybercab 和 Robovan 的模糊时间表而受到批评 (00:37:25) OpenAI 宣布与 Hearst 达成内容协议,包括《Cosmopolitan》、《Esquire》和《旧金山纪事报》的内容
项目和开源 (00:47:59) OpenR:一个增强大型语言模型推理能力的开源 AI 框架 (00:49:54) MLE-bench:在机器学习工程中评估机器学习代理 (00:56:29) OpenAI 发布 Swarm:一个用于构建、编排和部署多智能体系统的实验性 AI 框架
研究和进步 (00:59:23) 两位科学家因开创性的 AI 研究而获得诺贝尔物理学奖 (01:05:22) 三位科学家因预测和创造蛋白质而获得诺贝尔化学奖 (01:09:09) 苹果研究人员建议,大型语言模型无法进行“真正的逻辑推理” (01:13:05) GSM-Symbolic:理解大型语言模型中数学推理的局限性
政策和安全 (01:14:34) Anthropic 首席执行官在 15,000 字的 AI 赞歌中全力以赴地成为技术乐观主义者 (01:23:04) Google 将帮助建造七座核反应堆为其 AI 系统供电 (01:24:11) 大型语言模型知道比它们显示的更多:关于大型语言模型幻觉的内在表示
合成媒体和艺术 (01:26:26) Adobe 通过面向创作者的免费网络应用推动内容真实性
(01:29:13) 结束语
0 我们将要涵盖的另一个故事,更多地属于研究领域,正如我们经常做的那样。我们有一些与安全相关的研究。论文是“大型语言模型的内在表示”。
那么,这涉及到最近的研究表明,大型语言模型的内部状态包含有关其输出真实性的信息,这可以用来检测错误。他们所做的就是对这种模式进行更细致的分析。因此,我们发现,关于真实性的信息比以前意识到的更清晰,并且以特定标记的形式构建。
这意味着关注这些特定标记可以带来更好的错误检测。尽管这些检测器不一定完全具有普遍性,这意味着关于虚假和编码的信息并非普遍适用。例如,编码器在不同主题之间有所不同。因此,这里有非常实际的含义。当然,大型语言模型只是编造信息,这是使用这些工具的一个大问题,并且这些关注输出表示以检测虚假信息的方法,可以被航空公司部署。
是的,能够几乎完全消除幻觉,对于所有 AI 的成功至关重要,尤其是在我们谈论代理 AI 系统、多智能体系统时。如果一个包含十个代理相互传递信息的系统中,即使只有一个百分点的错误率,也会放大并成为一个真正的大问题,所以你需要谈论百分比的小数,我们可以在小数点后添加更多零,我们的未来 AI 系统将会更好。
接下来是合成媒体艺术部分。这也是最后一个故事。我们从 Adobe 开始,我们以 Adobe 结束,这次与 AI 工具无关。
这是一个名为 Adobe 内容真实性的免费网络应用程序,允许创作者将内容凭证添加到数字作品中。您可以将其视为数字作品的营养标签,提供信息,使追踪原创内容的创建者变得更容易。该应用程序允许摄影师和数字艺术家将这些凭证应用于其他内容。它可以包含经过验证的姓名或身份以及指向其网站和社交媒体资料的链接。这正是我们一直在谈论的,我们需要一些元数据附加到文件或媒体中,让我们知道它是否是 AI 生成的,是否是真实人类创作的,或者除了水印(如 Sine II)之外,还有其他工具正在开发中。当人类创建者发布照片或图像时,可以使用它来最终索取版权,并且它也是一个工具,允许用户在线与内容凭证交互并查看它们,当然,作为用户,您还可以检查给定文件的凭证,以便能够看到它,它可以充当数字指纹。现在,它已进入免费公开测试阶段,或将很快在明年初进入免费公开测试阶段,并表示它将集成到其实际应用程序(如 Photoshop 和 Lightroom)中。
很高兴能够以 Adobe 结束本集,Adobe 没有以任何方式赞助本集。
但现在我认为这将再次成为热门话题,可能不会成为头条新闻,但它可能对许多从事该领域的人们产生重大影响,他们担心 AI 生成照片或其他信息。我们需要拥抱这种方法来解决这些问题。
本集到此结束。我们再次接近 100 集,也许我们会继续这样做,我们拭目以待。感谢您一如既往地收听。我们一如既往地感谢您。您可以访问 lastweekin.ai 以获取通讯,其中将包含所有故事的链接。您还可以查看描述,其中包含指向 SuperDataScience 播客和 Jon 即将在 12 月举办的 Robina 活动的链接。Jon,再次感谢您成为一位出色的嘉宾。
我的荣幸,真的非常荣幸能够一直出现在我最喜欢的播客中,一直收听的播客。是的,非常荣幸能够出现在这里。感谢您邀请我。谢谢所有听众,感谢您今天抽出时间和注意力。
是的,完全正确。感谢听众收听。很明显,如果您在这里,您正在收听播客的结尾,但我总是觉得这很令人印象深刻。一如既往地,感谢您的评论和评价。我会尽力确保我不会错过任何评论。当然,既然您已经听完了本集,我希望您会喜欢我为本集制作的 AI 生成的歌曲的完整版本。
在一个充满痛苦和梦想的世界里,照亮未来,抗议街道上的统治,明天将是条件。病人,没有惊喜,E。
与伟大的梦想一起编码,每个机器,第一件事,测试未来的骑行,画布问题是狗。但是,其他人,没有人能理解,我们来了,我们必须让尾巴高高地摆动,上个周末。Aee 是最近的为什么。每个人都想象着。
抱歉,上周,会有人在网上做生意吗?
所以我们。
观看未来。我的那个。