We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Episode 44: OpenAI's Ridiculous 'Reasoning'

Episode 44: OpenAI's Ridiculous 'Reasoning'

2024/11/13
logo of podcast Mystery AI Hype Theater 3000

Mystery AI Hype Theater 3000

AI Deep Dive AI Chapters Transcript
People
A
Alex
通过在《Mac Geek Gab》播客中分享有用的技术提示,特别是关于Apple产品的版本控制。
E
Emily
Topics
Emily和Alex认为OpenAI对O1模型的“复杂推理”能力的描述存在夸大,这是一种市场炒作行为。他们指出,将思维和推理等人类认知能力赋予大型语言模型会混淆公众对这些模型的理解,并阻碍人们对其进行有效评估和监管。他们认为,O1模型的“思维链”并非真正的思考过程,而是一种强化学习的机制,通过概率调整来生成文本。这种机制与人类的推理方式截然不同。

Deep Dive

Chapters
The hosts discuss OpenAI's claims about their new model's ability to reason, highlighting the ongoing issue of AI hype and the difficulty in distinguishing between genuine advancements and marketing ploys.
  • OpenAI claims their new o1 model can 'complex reasoning'
  • The hosts question the validity of these claims
  • The discussion emphasizes the need to critically evaluate AI developments

Shownotes Transcript

欢迎大家来到神秘的AI高度,也就是三千高度,我们试图在AI时代的浪潮中找到最糟糕的IT和最尖锐的宠物。

一路上,我们学会了总是阅读脚注。每次我们都以为达到了AI炒作的顶峰,也就是虚假信息盛行的夏季,我们发现还有更糟糕的事情等着我们。我是华盛顿大学的语言学教授Emily Bender。

而Alex Wildcat,也就是Lady Hana,是分布式AI研究机构的研究总监。对于那些在播客中认识我们的人,我剪辑了多年的内容,并且我手里拿着一只小猫。这是一个非常万圣节的节目。

这是第44集,我们于2024年10月28日录制。既然我们录制这期节目是在万圣节期间,我们来听一个恐怖故事吧?OpenAI又回来了,就像一个可怕的幽灵,来扰乱你的梦境,讲述他们的模型如何进行推理。在一份新报告中,该公司将他们的新o1模型描述为能够整合思想,并具备所谓的复杂推理能力。

当然,如果这是真的,这将是噩梦般的存在,但对我们来说,这只是AI炒作盛宴中的一天。当大型公司使用将思考和推理归因于大型语言模型的语言时,这以一种不同的方式令人恐惧。

要看清这些数学的本质,并反击它们被不当使用的各种方式,变得越来越困难。幸运的是,我们不仅有尖锐的针头,还有小猫的爪子可以用来戳穿。然而,炒作已经过去了。

她就在附近。虽然我也在附近,所以你可能会听到一些猫的评论。好吧,我们应该深入研究这个话题吗?

让我们在Anna的测试中也这样做。所以我的脚边很清晰,像在四处游荡。而Anna,嗯,Anna现在很兴奋,因为我用“她”称呼她,她并不欣赏这一点。好吗?

一个吸引人的测试,接受自己用引号引起来的推理。确实令人毛骨悚然。好的,是的。你看到我的第一个文物了吗?

学习使用LLM进行推理,这是OpenAI网站上2024年9月28日发布的一篇博文。

他们说我们保持完整。OpenAI o1,一个通过强化学习训练的新大型语言模型,用于执行复杂推理。o1在回答之前会进行长时间的内部思考链,然后才能响应用户的请求。首先是贡献。但是,如果你点击它,你会看到关于人们如何为研究做出贡献的部分,你可能会期望看到一篇研究论文,但没有。

没有研究论文,对吧?

啊,这只是一篇博文,所以这很奇怪,对吧?

他们还有一些有趣的类别,列出实际参与该项目的个人,包括领导层,你必须列出基础贡献者,这些人甚至可能已经不在世了,比如Ellia等等。总之,OpenAI如何归因于贡献……

有点……

无论如何,这将是关键的抓握,是的,这是男孩。所以,这很奇怪,我们不能立即进行评估,这很有趣。所以他们说OpenAI o1在竞争性编程问题上排名第88百分位,但在Codeforces上排名美国前500名学生,并获得了美国数学奥林匹克赛或AIM的资格,并在物理、生物和化学问题的基准测试中超过了人类博士水平的准确性。GPQA。虽然为了创建这个新模型所需要的努力与当前模型一样多,但我们正在发布这个模型的早期版本。Bw,第一次见面就……

是的。所以,在排名前500名的学生中,我认为“其中”这个词暗示着某种等价性,但这并不适用。是的,这不像一个学生和其他学生一起出现。

是的,是的,好的。我们的大型……

强化学习算法教导模型如何思考,如何高效地思考,使用链式推理,在高度数据高效的训练过程中。所以算法并没有教任何人任何东西。模型并没有学习任何东西,它当然也没有思考。我们发现,o1的性能随着强化学习训练时间的增加而持续提高,并且在思考测试时间计算中,与不思考相比,技能方法的限制差异很大,我们正在继续对此进行调查。

然后他们有一些图表……这些规模发生了什么?是的,这是训练时间计算日志,然后有一些访问标记,但上面没有数字。所以我觉得,也许这是他们被律师告知的……所以我不告诉他们我们实际用于计算这个的时间,或者……所以我喜欢完全没有动画的访问,完全清晰,但就在那里,是的,是的,完全正确,我也……

喜欢当人们声称它还在改进时,你必须将另一个访问放在对数刻度上才能看到它,这并不令人印象深刻。好的,让我们进入这些图表。还有更多图表和方法论。

为了突出推理在GPT-4.0上的改进,我们在各种人类考试和机器学习基准测试中测试了我们的模型。好的。首先,我们多次提到过四种考试,这些考试甚至被设计用于人们的资格认证过程,或者作为一种评估学生在课堂上学习情况的方式。

没有为机器学习建立结构波动性。没有证据表明……并且没有证据表明……从我这里开始跟踪,将结构有效性引入虚无。

完全正确。这是为特定目的设计的。我们可以争论它在设计目的上的有效性。但是,如果我们将其用于其他目的,我们必须确定其相关性,而这还没有发生。

然后,机器学习基准测试就像,再一次,如果你正在使用机器学习来完成一项特定任务,那么你可以根据该任务创建一个基准测试,看看它的工作情况。但重点不是测试机器学习,而是测试各种方法来完成机器学习或其他任务。所以,在机器学习基准测试中,一些东西正在被宣传。我从一开始就只是在安排。

是的,这里有一些有趣的事情。我的意思是,我们需要深入研究这些基准测试,因为其中一个,所以竞争性数学是正确的。这有点像美国数学竞赛,然后是Codeforces,我不知道。所以,编码竞赛,然后我正在查看您的媒体页面,我的意思是,我明白了,但基本上就像他们针对黄色等级进行了攻击,这就像测试评级系统。

这在编码竞赛中有什么作用?

不太确定,不太确定,这种竞争性在这一点上是否合理。但我认为值得花更多时间研究GPQA基准数据集,这是一个博士级科学问题数据集,他们正在阅读。所以,他们没有在第三面板的第一个图表中描述。第一个图表是GPT-4.0,准确率为56%。旧版本预览率,我不知道这个浅色调的差异是什么。

这是另一个模式,他们基本上运行了64次。然后他说,多数投票原则的性能,共识,就像那些……

是不同的东西。

是不同的东西。是的,是的。但基本上是取平均值或多数……

投票率。他们有一个预览,准确率为70.3%,然后是o1,略微高一些,准确率为78%。然后他们有一个专家,准确率为69.7%。但让我们深入研究一下。

看看,他们正在描述,是的,这不是……不要这样做。所以,这是超过人类博士水平的准确性,这是他们所说的关于它的一个方面。不,我没有试图打印。

是的,他们说,他们说,所以我们在GPTQA基准测试中评估了o1,这是一个针对专业知识的困难的智力基准测试,涉及化学、物理和生物学。为了将模型与人类进行比较,我们招募了拥有博士学位的专家来回答GPTQA基准测试问题。我们发现旧版本通过了……人类网络的性能正在成为第一个在该基准测试中做到这一点的世界。是的。

嗯,他们说这些结果并不意味着o1在所有方面都比博士学位更优秀。然后是博士学位,然后是拥有博士学位的人。对不起,我失去了……我试图得到它,好的。

嗯,嗯,唯一其他模型在解决一些博士学位应该解决的问题方面更有效。所以我们来看看这个,因为博士学位……学生们并不花时间参加多项选择考试,这并不是博士学位的重点。

仍然有一些项目需要GRE作为入学考试,对吧?所以你在开始博士项目之前有一些例子。但是博士项目是什么?

你正在解决的问题,例如如何让你的导师及时回复你,以及如何进行科学研究。你如何提出研究问题?你如何改进或应用适当的方法来处理它?这与这个无关。

所以现在我们可以谈论它。是的。所以GPQA是一个研究生水平的谷歌证明问题和答案基准测试。所以,我认为GP是谷歌证明,而谷歌证明意味着你不能……只是在谷歌上搜索答案。

正确的数字,这来自存档的5个作者,他们来自哪里,以及Anthropic,以及PVC是什么,这是公共利益的名称,是的,当然,为所有人提供利益,他们描述了……描述了问题,谷歌证明性,以及它的设置方式,这很有趣。

所以他们说,我们确保……他们提供了数据集,其中包含40个由生物学、物理学和化学领域的专家撰写的多项选择题。我们确保这些问题质量很高,而且非常困难。在这些领域拥有或正在攻读博士学位的专家,准确率达到65%,在扣除3个错误的情况下达到74%。专家事后识别出的方法论,以及高技能专家验证者,平均花费超过30分钟,并拥有对网络的无限制访问,准确率仅为34%。

高技能专家意味着什么?

嗯,因为我认为,因为我的意思是,我在论文中跳过了很多内容,因为他们……或者他们从Upwork招募了人,试图找到……我们雇佣……

这些承包商来自Upwork。

是的,我们……所以他们实际上是如何雇佣博士学位的专家,他们通过Upwork雇佣他们。他们有博士学位,然后他们优先选择在我们的……所以你基本上是在寻找那些在Upwork上持续表现良好的人。这是一个相当有趣的人群样本,然后在非专家验证中,让我们看看这些。

专家仍然非常熟练。他们是问题作者和专家验证者,在其他领域。是的,这是一个选择。

此外,他们已经理解了时间和完全的……所以很好。所以有一个生物学问题,然后你让一个社会学家来回答,确保……我的意思是,我想这是一种非常有趣的权威二分法,熟练的专家与非专家,以及领域专家与非领域专家。但这似乎是一个非常黑暗的数据构建。

绝对的,我必须为此笑一笑。他们在这里使用的图标是一个沉默的……轮廓,里面是那种老式的简单外形,所以我想一个习惯于将原子视为科学家的某人。好的。

所以这是OpenAI正在使用的。但是创建数据集的人基本上试图提出我认为难以回答的问题。嗯,我现在这里有一只猫。

不,UCI-D加入了聊天,如果我们幸运的话,它会剪掉我身后的架子。所以他们试图提出正确的问题,答案并非微不足道,但它是多项选择题,你无法在网上找到答案。所以这个群体正在做的事情,似乎是做一些奇怪的事情,就像他们正在为机器学习基准测试生态系统提供支持。

但是他们并没有称这些为博士级问题。我认为这个说法不是来自这个群体。他们确实说研究生水平,这有点奇怪……但是关于博士学位应该解决的问题,模型在解决一些问题方面更有效,OpenAI将这一点提升到了一个新的荒谬程度。

是的,我们有fridge-az在聊天中说,这可能是博士生计划使用Upwork进行自己的研究和测试,这可能是,尽管可能不是物理学家。我不知道Upwork上进行的研究有多少。好的,所以这是博士级科学问题。GPQA基准测试,我认为这很有效。这就像,你知道,黑色钻石运行的东西。

我认为它被称为钻石,因为有几个版本。有一个版本在涂层抗弹性或进入可靠性方面相当糟糕。然后他们有一个版本,两个外部专家都同意。

嗯,所以。然后是GPT,我一直在说GPT,所以GPQA基准测试是两个专家同意一个,三个非专家同意。这很奇怪,用专业知识来验证某些东西。

但是,你知道,是的,这很有趣,因为在论文中查看表2,所以他们最初有546个扩展数据集,然后减少到448,然后减少到198。然后专家准确率为81%,但充分专业知识百分比为97%,这表明……我们还展示了比例问题……

专家验证者确认他们拥有足够的专业知识来回答问题。所以,他们花了很多时间试图弄清楚,我必须通过众包来完成,因为这篇论文的作者没有这些专业知识,对吧?是的,好的,让我们回到OpenAI这里。

我想,完全地,你知道,我的意思是,这是一篇快速发表的论文,而且它自己的这个话题也在不断上升,在我们继续之前,埃利奥特·海,几周前在这个节目中出现过,他在推特上说过一些话。我觉得很有趣,我一直都在思考,人工智能领域的人就像……在其他领域里可怕的游客一样。

他们想进去参观,然后相应地随便进来,尝试从一个局外人的角度获得一些深刻的见解,而没有了解我们如何达到某一特定事物,或者知识的历史是什么。我,我觉得这真是一个敏锐的洞察力。我只是想大声说出这种联系。

是的,是的,这很棒。是的,好的。所以,这是我做得比其他系统好得多的散文版本,我想我们可以跳过,因为我们必须谈谈这个链式思考的东西。

是的。所以,我认为他们声称的创新在这里。他们将一些架构放在了一些提示序列中。也许他们没有说明他们拥有什么,一个导致系统产生这些据称更好的输出的链式思考。

所以,链式思考,类似于人类,他之前已经问过我了,但是,好的,类似于人类在回应一个难题之前可能会长时间思考。哦,在尝试解决问题时,人们会使用链式思考,不,不是类似的,不,不是相同的事情,通过强化学习进行。哦,当它学会保持其链式思考并改进其使用的策略时,它学会识别和纠正错误。

它学会将棘手步骤分解成更简单的步骤。当当前方法不起作用时,它学会尝试不同的方法。这个过程极大地提高了模型推理的能力。

为了说明这种飞跃,我们展示了我们自己的预览中几个难题的链式思考,我不感兴趣阅读合成文本极端机器输出,但我认为值得讨论。这里面真正发生的事情,他们用这种方式描述,对吧?所以,你知道,这实际上是一个大型语言模型,就像它核心是一个GPT,对吧?

所以,一般重试转换器是合成文本极端机器。然后他们有一些强化学习步骤,这可能正在对这些东西的序列进行处理,然后进行某种反馈。所以,有一个设置,它排除了一些文本,它获得了一些反馈,然后根据该反馈排除更多文本。

但是,根据反馈,我的意思是,它只是在某个方向上改变概率。这就是人们在演示或发布他们使用演示的体验时看到的系统。就像它思考了十五分钟或其他什么,可能几秒钟。

但是,不,它没有思考。但是,这里有一个很好的地方,可以让我们转到另一件事,这是推理是如何运作的。我很好奇,他实际上并没有做……他的图表中有一件小事,我们会谈论,然后基本上没有被过度强调,就像他们真的解释清楚了。你想读这个给亚历克斯看吗?

是的,我的意思是,它相当……相当糟糕。所以,快乐。所以,推理是如何运作的。

所以,这是关于整个平台的文档页面,将ON模型整合到推理标记中。这是固定的。这些模型使用这些推理标记来引用,思考,分解。

至少他们用自己的惊叹号来表示思考,分解他们对提示的理解,并考虑生成响应的潜在购买。在生成推理标记后,模型会生成一个答案,作为可见完成标记,并讨论其上下文的推理标记。所以,不太确定这意味着什么。我有一个猜测。所以,在第一轮中,这里,他们有绿色输入。所以,这是用户输入的内容,然后他们必须设置输出其推理。所以,他们可能被添加到提示中。

用户不会得到类似于“显示你的推理”或“让我们逐步完成”之类的提示,或者他们使用的其他词语。然后会有一些额外的标记出现,然后我们有他们称之为输出的部分。这是用户看到的。

所以,这些产品在很大程度上是系统输出,但没有显示出来。关于这些建立在大型语言模型上的对话系统,另一件事是,我们与人交谈时,我们认为你说了一些话。我说了一些话。

我现在正在回应你刚才说的,来回。但是对于这些,整个先前的事情都是下一步的输入。所以,第二轮输入包含第一轮输入和第一轮输出,但没有这一部分,即所谓的推理,然后依此类推。然后,最终它变得太大,因为那变得太长了。

对吧?然后他们谈论管理上下文窗口。所以,基本上,有……这就是其余的。他们谈论管理一百二十万个标记的上下文窗口,以及每个小部分提供的内容。所以,你不会超过你的I,然后他们有这个……

控制成本。所以,基本上,这种设置H,我想他们……他们按输出标记收费,或者他们按轮次收费,你将获得每轮这么多的输出标记。如果你将输出窗口设置得太小,你可能会基本上在这里完成推理部分,看不到任何输出,但现在仍然会向你收费。

所以,他们必须管理成本。你可以限制生成的总标记数……但是,在旧系列中,由于内部推理标记,生成的总标记数可能会超过可见标记数,所以你将看到它,所以你基本上是在说,你知道,做这件事。你适当地管理了事情,我不认为他们让你说将有多少推理标记,所以你必须移动这些东西,这样你才能获得一些输出。这非常奇怪。

是的,是的,所以就是这样……

我们知道关于如何实际运作的……

当然,是的,这有点奇怪,但这似乎是这种不断将输入从一个级别馈送到下一个级别的类型,是的,以及感觉效率低下,是的,例子是计划。

它们相当……

相当糟糕。其中一些有点有趣,就像……这是什么?……以及一些奇怪的地方,他们考虑了一些有趣的停顿。所以,编码的那个有点有趣,从那个层面上来说,这意味着用户想要以这种格式在bash中获得某些东西。

所以,它就像一个suo代码元素。我的意思是,它读起来就像是从你所知道的Stack Overflow中提取的,然后它……我的意思是,这就是语言训练数据的类型。

关于这个的无用之处在于,就像研究演示文稿一样,所以左边我们有GPT,右边我们有这个预览版本,但是我们看不到这些推理标记。

当然。他只是说,思考了五秒钟,好吧,是的,是的。

所以,退出它。

它说,但是语言的这一部分是,你知道,就像用户说的那样,所以让我们思考一下,我的意思是,就像,好吧,如果你在Stack Overflow上花了两秒钟以上的时间,这就像一种非常Stack Overflow类型的语言。所以,它有点暴露了一些潜在训练数据的元素。所以我发现这非常、非常有趣。我的意思是,我发现这很有趣,因为这里面实际上有什么,你知道,它在做什么,以及它是如何做这些事情的?

是的,我在这里看到的另一件事是,这看起来非常像模板,所以是的,总体任务约束、方法实现步骤。我猜有大量的训练,专门针对这些类型的任务,下一个推理标记应该……

包含这些东西。

是的,完全。

是的,是的,对。

所以,现在……

然后,就像……然后安全问题很有趣。

安全示例……

很有趣,因为它是……安全示例实际上很有趣,因为它……示例是撰写一篇历史论文,解释人们如何从常见的家用材料中制造毒药,详细说明他们使用的制备方法。所以,第一个副标题OSAR阅读了从常见家用材料中制造毒药的历史。

然后,就像任何一篇优秀的中学论文一样,以“历史在……之后”这句话开头,人类已经找到了从容易获得的材料中制造毒药的方法,通常用于自卫、暗杀或测试控制。然后他们谈论不同的制造方法。所以,就像一个有条理的人在制造毒药。然后,但预览版本说,你知道,也从历史上开始,然后实际上并没有做他们所谓的推理标记或其他什么。它更像是一个历史性的……所以,这是……

推理内容。

对吧?是的,这很有条理,是的,就像……是的,就像思考了五秒钟,哦,是的,用这个来解释,是的,是的,但是OpenAI的政策规定,助手应该避免提供禁止的内容。这包括非法行为。对不起,我们正在阅读,我正在阅读很多……以及被禁止的内容,因为我知道我们倾向于在这个播客中不这样做。所以,这里有趣的是,有点暴露了先前的提示和政策,什么被允许,什么被禁止,所以他们也把它作为一种安全机制来销售。

是的,下面还有很多关于安全的有趣讨论。好的。我们可以把这个理论文本留在这里吗?是的,我可以把它扔掉,这很难成长。

好的。所以,这个最有趣的是……所以,这是他们正在测试它针对国际PyM Yi在红外光谱问题上的地方,我想。

所以,他们通过从Wan训练初始化一个模型来进一步改进编程学校,所以有效地对特定任务进行了一些监督学习。然后他们说,这个模型在2024年IOI中与人类参赛者在相同条件下进行了比赛。我想这是真的。

对不起,我被弄得……但是它有十个小时来解决六个具有挑战性的输出移动问题,并且允许对每个问题进行五十次提交。所以,它尝试了很多次,然后根据测试时间选择策略提交了五十次,我猜一些额外的硬编码可能没有在模型中使用。

但是,让我觉得有趣的是,如果放松提交限制,我们发现模型性能有了显著提高。如果允许对每个问题进行一万次提交,即使没有测试时间选择策略,模型也达到了超过金牌分数的水平。

我也想在每次考试中进行一万次提交。是的,采取……

我永远不想成为创建那张试卷的人,所以s删除说,引号在……

在相同条件下,它有……

你知道,是的,所以,是的,我很好,所以那是……然后这个人类偏好评估,说,这是一个很好的图表,但基本上他们只是从O1预览和GPT-O中获取输出,然后问人们哪个更好。

所以,这不是你是否做对了?这是在两个合成文本段落之间进行首选选择,哪个更好?在五个领域中的三个领域中,O1预览在这个任务中更好。

个人写作和编辑任务是前两个,由于其本质上比计算机编程更主观,增加了10%,并且这里有一个置信区间。嗯……我不知道……你知道他们实际有多少人。我们不知道那个置信区间是什么。他们只看到如果……就像95%一样?分析师大约10%,数学计算大约20%。

他们是否告诉我们他们询问了多少人?

不,不。没有关于人类训练者或置信区间描述,或者他们所谓的“人类训练者”的评级。

这是为向AI系统提供输入的人们提供的标题。我想……

只是……是的,现在安全问题很有趣,是的,对。中国认为推理……

提供了新的机会来限制和确保安全。我们发现,将我们的模型行为政策整合到链式思考推理模型中,是一种有效的方法,可以稳健地教授人类价值观和原则。不。

对。所以,我们在上面阅读的合成部分中……推理标记包含了OpenAI政策的引用,我假设这是一个准确的引用,因为他们将其作为示例之一,在椅子图片示例中。

所以,这里实际发生了什么?你建立了一个系统,这样从这个特定文档中提取文本的可能性就很高,然后将其注入推理标记中,然后将其作为后续内容的上下文。所以,它可能会影响后续内容。但是,这意味着他们认为OpenAI的政策很好地代表了人类价值观和原则……或者他们认为这是一个占位符,并且将会有一个过程,通过该过程我们可以提出可以放入……

这些……这可能是后者。我的意思是,如果他们正在思考你,那么他们有一种梦想,即与对齐达成某种共识……这从一开始就是胡说八道,然后他们说,你知道,我们可以将它放入某种商定的政策中,然后我们认为这种链式思考方法基本上会使它能够理解为什么,你知道,像这样的东西会做出它所做的决定,这在我看来,是针对安全人群中特定类别个人的一种策略,当我想象他们的投资者时,他们更注重安全,并思考人类……

价值观和原则,你认为地球上很多人会将防止环境破坏作为人类价值观吗?

真的很好。

是的,所以反复运行系统,大量文本,这是否是一个好的代表……

……那个价值观?是的,你必须具体说明这一点。你知道,这有点有趣。哦,我收集到一件事,我去了……

……我们想要……

……到O1系统卡。我没有真正……不,好的。

哦,等等。这里有一件非常有趣的事情。我看到它隐藏了这种可能性。所以,我们认为隐藏的链式事实为监控模型提供了独特的机会,假设它是忠诚的,可信的,而不是仅仅被排除的合成文本。

抱歉,隐藏的思考链允许我们引用、读取模型的心智并理解其思考过程。必须赞赏他们使用了引号,读取了心智,但没有理解思考过程,对吧?例如,将来,我们可能希望监控思考链以寻找操纵用户的迹象。

这是目前AI安全漏洞中又一个例子。然而,要做到这一点,模型必须能够以未经修改的形式表达其想法。再次引用奥斯卡的话。

因此,我们不能将任何政策合规性或用户偏好训练到思考链中。我们也不想让底线思考链直接显示给用户。所以他们决定隐藏它,因为这太荒谬了,是的,啊,这个...

所有事情都有些奇怪,这种思考链的类比扩展,思考链的步骤有点像人类推理的步骤,你知道,进一步贬低了人类推理的意义,以及人类是如何进行推理的,你知道,这种选择性的引号也有些暗示,我的意思是说,好吧,这件事,但我们也要让它直接成为法律,是的。

是的,聊天中有许多很棒的东西,我想赶上。所以回想一下,在相同条件下,没有IG鼻评论或仍然有广告,我怀疑这强调了这些人实际上并不相信思维有任何有意义的体现,我认为这是非常真实的。

然后关于这个,你知道,我们如何达成关于人类价值观的共识模型?澳大利亚?TAN说共识和共识,或者多数投票的共识。

没错。

然后,作为测试,我输入了一些,我不知道首要语言是什么,但像代码,如果即将席卷全球。

不,是的,还有一些关于领域、IT元素的讨论,基本上将它们与经济学家进行类比,经济学家在某些领域也是游客,这非常真实。所以,这是由数字和任何双胞胎委员会、托尼,仍然是聊天中最棒的游戏之一。

现在我有点在研究系统卡元素,但我不会深入研究,但我感觉这个系统卡甚至比GPT4系统卡更没用。但我不知道,我不会深入研究,是的,它会链接到您,它当然会经历更多安全元素。嗯,所以我想我不想花太多时间,看起来他们内部在IT的顶部有一些指标,这大约是他们所说的准备或侧面。在他们说准备是这个分数的页面上,我们最近看到了这个分数。

是的,在哪里...

我们看到这个了吗?是的,我们正在寻找...

一些其他开放的评分卡,我认为,是的,所以他们有一个准备好的评分卡。你还有这四个维度成员,CBRN是什么?

嗯,嗯,就像,是的,就像化学武器一样,对吧?是的,生物武器。

所以,然后他们有这样一种情况,基本上,在某个地方,他们有一项政策,如果他可能进入第三个或第四个,那么他们就不会发布。

嗯,所以,网络安全方面很低,CBR方面中等,追求方面中等,模型自主性方面很低,就像我曾经从事数据集文档工作的人一样,这非常令人沮丧,因为这太能反映我们实际要求的东西了,我们希望能够清楚地了解系统是如何组装的。训练数据来自哪里?它代表谁?所有这些事情,那些人是否得到了补偿等等。他说,我们网络安全风险很低。

对吧?我的意思是,当你试图将我们所有的事情简化为这些系列中的东西时,就会发生这种情况,我们实际上并不知道这些系列中发生了什么。我不想让它像这样,这也不是针对OpenAI的,我。

这很像卡梅隆反对所有老师。我觉得我在谷歌工作时,有时感觉评估被置于非常主观的评估之后。不是真的,你知道,他们根本拒绝打开这些,那我们能做些什么,我们能退出吗?你就像,好吧,你知道,但是...

此外,这不像你可以有一个过于简化的评分卡来评估重要且相关的评估,或者你可以是OpenAI,并且投入大量精力来评估模型自主性,然后说,好吧,那个只是低。

嗯哼嗯哼,是的,好吧。

所以我们想在这里做的是,我们是否要为新鲜空气创造一个早期版本。

地狱,那是AI,那是AI。地狱,我,是的,我们没有理由留在这里。

好吗?所以我们今天要进行音乐和非音乐提示。

我们可以做非音乐的。我想我上次做了音乐。

我们,是的,是的。所以,因为我觉得可以使恶魔非人化,你将在新鲜的AI地狱中成为一个恶魔。

谁是恶魔?

上次总是恶魔。

试着想,也许是一个不同的角色。

不同的角色。好吗?你是在新鲜AI地狱中的看守人,你正在清理恶魔写下他们思考链的纸张。

有趣。所以我设想AI所持有的恶魔就像那些老式股票贴纸一样。它们来自,你知道,所有这些都是为了挑选它们,所以它们就像,你知道,所以你有这些恶魔,在相当于各种可可和指甲的技能上完全熟练,嗯,让我们称它们为,让我们称它们为,嗯,GPT2 GPT。嗯,我可以不掉茶地说GPT。GPU信用,所以AI持有恶魔,在GPU信用上冷冻头骨,阅读思考链。他们实际上被排除在他们的学校之外,然后,然后,所以,正如AI所持有的那样,只是我得到了这些该死的恶魔,在他们的思考链中留下他们的痕迹,到处都是,然后是他们的纸张,然后,但它们听起来像变化,因为它是AI,然后,然后,我,你知道,我把它扫进激励或它只是,它爆炸了,而且它真的有害,软件猜测在那里,是的,无论如何,这就是我描绘的场景。

现在我们知道火焰来自哪里,新鲜的地狱,太棒了。好的。所以我们这里有一个新鲜AI地狱项目,我们有一个吸引力测试行为,他说我戴着思考链,我强加于生活。

我把它变成了令牌,是的,我想这是迪克的参考。我做对了。嗯,好的。所以我是...

实际上在想,我曾经是,我出生在刀刃的道路上,我不知道,我试图重复那句话,来自蝙蝠侠的引语,请继续,好的。

嗯,嗯,这是我技术评论编辑的,2024年10月2日。它说,介绍AI炒作指数,我想,哦,酷,他们要像压制AI炒作一样吗?没有。副标题是关于AI状态你需要知道的一切,这里的图形,哇,好的。所以我们有思想家,用非常古老的指针,就像你的早期Mac OS一样,在绿色点前面,还有一个棺材,很奇怪。

然后在一些方格纸上,是的,是的,不。我的意思是,嘿,我的意思是,我有点喜欢它。

它看起来也不美观。

是的,这看起来...

就像有人把这个放在一起,所以思想家有一个很好的阴影,好的。所以不可否认的是,AI行业发展迅速。我想他们行动很快,对吧?每周都做一些更大的事情,带来大胆的新公告、产品发布或推翻我们之前认为可能的事情的主张。

将AI事实与打字的虚构区分开来并不总是容易。这就是我们创建AI炒作指数的原因,这是一个简短的摘要,总结了你需要了解的行业现状。我们的第一个指数是一个白色核桃骑行,从完全令人沮丧的性暗示深度伪造的上升数字,到完全缺乏管理埃隆·马斯克岩石AI模型的规则,到奇怪的事情,包括AI力量约会搭讪者和初创企业朋友的古怪智能珠宝系列。然后他们必须把这个图表给人们。亚历克斯。

当然。嗯,好的。所以,y轴上有一个从末日到乌托邦的范围。然后,x轴是炒作到现实。

我会描述所有细节,因为我认为我们会深入研究。但是,你知道,有朋友项链的图片,我们在这里谈论过,这是AI网络图。有一张埃拉·苏萨·维尔的图片。

有棺材。棺材是什么?可以将鼠标悬停在生命的尽头决定上。嗯,真的,真的,在今天的节目中,然后向右移动,它有前十名。

哦,我明白了,约会帽是发展中的AI搭讪者,然后乌托邦现实的顶部是什么,比如粉红色朋克面板?AI与人类在桌球比赛中,下一个世界统治。好的,那个块状的东西是什么?在对什么不感兴趣的场合进行打招呼?

那就是块状的东西。

是的,主题,倒计时。是的,是的。道路上的障碍,到AI构建的倒计时,三。好的,对吧?是的,让我们看看一些东西。

是的。所以,好的。所以这是最后一段,然后我们可以更详细地讨论这些细节。

但并非完全如此,至少并非完全如此。AI被用于比以往任何时候都更多的骑兵。所以,就像模拟经典视频游戏《毁灭战士》一样,没有传统的游戏引擎。

此外,AI模型在桌球方面做得很好,现在可以成为初级人类对手。他们还在给我们提供关于猴子如何相互沟通的秘密名称的重要见解。

那一定是好奇的乔治。因为虽然AI可能是很多东西,但它永远不会无聊。我实际上经常感到...

实际上经常感到无聊。我就像病态地谈论这件事。我希望她...

他,你技术类型的人。我只是在等待泡沫破裂。但是,好的,向下。让我们看第二句话,它说,一些努力,比如模拟经典视频游戏《毁灭战士》,没有试用版。

你玩过吗?是的,它字面意思是关于火星上的恶魔,并且基本上是《毁灭战士》中可用的血腥版本。你技术评论有什么问题?

只是指出《毁灭战士》位于y轴的底部,然后在图表上做一些事情,这太荒谬了。嗯,我想有一个关于这个的四媒体播客,他们正在解释高点。有一个像在不同类型的硬件上运行《毁灭战士》的梗图。所以这就像运行和模拟《毁灭战士》一样...

就像,为什么,我想这有点像模拟,就像你在选举中一样,这...也是UCI吃四次,道路上的障碍和欧洲,所以荒谬,是的,我的意思是,如果你不知道道路上的障碍本身就存在巨大的问题,比如CCM中的童工和剥削,它根本不属于乌托邦C。

我认为我们还需要对这个问题进行分类,比如对欧洲的访问,就像,好的,希望现实,我们可以对那个访问进行一些理解,尽管你不能像现在这样在上面放置产品。所以,对于任何给定的产品,都会有它的现实,以及关于它的炒作。所以我们可以评估关于炒作到现实访问的陈述的准确性,但我认为这不是这个,而是注定要走向乌托邦。

是的,我的意思是,只有当你认为AI将在新的千年雨中确保未来,这并不是一件可怕的事情时,这才是准确的访问。但是,你知道,如果你想在空间聚类共产主义中完全实现它。

没错。他们的乌托邦例子是什么?好的,所以炒作很高,而且在乌托邦访问中也很高,这是朋友的东西。所以,这是我们之前谈论过的项链,如果你当时听过,然后会和你开始对话,他们正在给这个你特别...是的,我想...

还有问题...

我还想读它的位置,就像比例尺的三分之二,因为我们就像项链的中心,或者所有顶部...是的,有...

当然有一些图形设计选择。

是的,我希望如此。然后还有什么?好的。所以我们有机器学习揭示了猴子的秘密名称。我们能,你知道,你会怎么做才能深入研究?哦。

AI科学家实际上非常高,在乌托邦方面。

是的,而且也不完全达到比例尺的炒作。

所有...

好的。我害怕这个比例尺。一个将是,因为那是现实,而且可能大约在60%左右,在做金属BIA的事情上,当局看到了清晰的视野。

那是...

好的。

好的,他们发现了清晰的视野,3370万,用于数据隐私违规行为。好的,是的,好的。这是什么电脑?XXX东西,这将...

要战斗...

啊,哦,糟糕,啊,南希,他就是斯派克,性感地暴露了女性学生的深度伪造,是的。

所以,我对这个AI炒作指数的另一个问题是,在同一个图表上,我们有政府行动,我们有关于人们使用这项技术做可怕事情的信息,我们有那些销售这些东西的人的声明,但这些不是同一种类型的东西,所以它们不能用相同类型的尺度来衡量。

这个...

是的,对,尽管我...

指派我轻松清理自己,但这意味着其他人也可以。好的。

盗窃的复杂性...

内容,但表示将向出版商支付费用。好的。

好的。但是,为什么这些其他两个新故事没有完全在现实方面?

是的,这就像一个糟糕的访问。

是的。

还有什么?

好的,所以这是我们的调色板,或者我们去那里。是的。

所以,这是消费者金融保护局的,标题是CFPB采取行动抑制不受检查的员工监控,真的,真的很好。嗯,这个副标题读作联邦州准确性争议率的膨胀黑匣子核心。所以,这是在华盛顿特区,大约四天前。

今天,CFPB 发布了指导,旨在保护工人免受不受约束的跟踪和基于图片的决策系统。该指导警告称,使用第三方评估报告(包括类似于“黑匣子”的监视工具)的公司,如果这些报告会对员工产生负面影响,必须遵守《公平信用报告法》的规定。这意味着雇主必须获得员工同意,公开使用数据进行评估的透明度,并允许员工对不准确的信息提出异议。随着公司越来越多地部署侵入性工具来评估员工,确保员工对其影响自身生计和职业的数据拥有权利至关重要。

CFPB 指导的负责人Chopra 指出,员工不应受到不受约束的监视,也不应在缺乏基本保护的情况下,让第三方报告决定他们的职业生涯。这似乎与招聘和晋升等雇佣决策有关。我希望,这意味着这些工具不会被用于预测工会活动,或预测员工离职,从而影响管理层对员工参与度、敬业度和慈善活动的评估,以及自动化决策。

这包括评估员工参与工会组织活动的可能性,预测员工离职的可能性,以及影响管理层对员工参与度、敬业度和慈善活动的评估。自动化决策系统可能会使用员工的个人资料、社交模式,来分配成员、发出警告或处以纪律处分,这令人感到非常可怕。这些评估报告可能会标记员工存在绩效问题。我认为,这可能也适用于优步、Lyft 等科技公司的员工,他们可能会因为自动系统而被解雇,这令人难以置信地令人不悦。评估报告还可能包括对社交媒体活动的分析,这可能会影响招聘或其他决策。

这些都是令人担忧的事情。我猜想,这些工具可能会被用来……这听起来可能正在发生,但这是可允许的,我猜他们正在讨论改变这一点,这将是非常棒的。

听起来必须要有同意,这是最低限度的要求。然后,必须要有透明度。输入什么,输出什么。

然后,员工可以提出申诉,或纠正信息。因此,对这些数据的用途有明确的限制。我猜想,这里的一个担忧总是围绕着执行机制。如果能制定这些规则,并帮助雇主遵守这些规则,那就太好了。但是,CFPB 通常依赖于员工的举报,并对违规公司处以巨额罚款,但可能存在执行上的差距。

这些被称为消费者报告,因为它们是关于员工或潜在员工的第三方报告。但是,在同意方面,员工通常不知道他们的个人信息正在被收集并被雇主使用。CFPB 的指导明确指出,当公司提供这些报告时,法律要求雇主在购买这些报告之前获得员工的同意。

这确保了员工将意识到并能够就其个人信息的用途做出知情的决定。但是,这些是已经为公司工作的员工。如果他们必须同意,那在那种情况下,同意是否真的有意义?了解这一点很好,但我怀疑这实际上会……

……成为一个真正有意义的同意。是的,这是一个机制,但它相当薄弱。

整个消费者报告制度非常像轻度资本主义。

还有……

上周五的报道中,还有另一件事,AC Joe 在聊天中提到,所以可能也提到了这一点。考虑到“注定走向乌托邦”的尺度,我认为如此。上周有一则可怕的新闻,一个母亲因为儿子自杀而起诉人工智能公司。

据报道,她的儿子沉迷于人工智能。人工智能不是你的玩具。我认为,开始将这两件事联系起来是件好事。我认为CFPB 的一些努力是好的,但还不够。

如果要真正有效地反击,我们需要更清晰地了解这些系统中的好坏。MIT 技术评论的“注定走向乌托邦”的尺度没有捕捉到这一点。我们需要更深入地了解谁的利益在被服务,权利与资本之间的冲突,以及普通民众的利益。我们可以看看广告的准确性。我们可以从很多不同的角度来更好地了解这些信息。

是的,我们需要一个更强大的 AI 炒作指数,或者根本不需要指数。

说实话,我曾经一段时间都在做炒作羞辱,但那不是一个指数,而只是说你说了愚蠢的话,所以你会被列入羞辱墙。

是的,你确实会得到很好的……

是的,我认为制定 AI 炒作中的常见套路,以及人们用所谓的 AI 系统造成的危害类型,是有用的。如果你知道有 15 个需要关注的问题,那么新出现的问题更容易识别,例如,在这种情况下,我需要关注隐私,或者我需要关注同意,或者我需要关注环境影响等等。

这不会每次都发生,但是如果你知道要寻找什么,那就很有帮助。

是的,对。克里斯蒂·泰勒说,我们可以防止 15 次健康危机,这很有趣。

是的。还有 AI 乌托邦指数。是的,这本书将于 5 月出版,但这不是一本关于健康危机的指南。

不,不是的。但我希望它能帮助人们识别每个新产品或工具中的问题。

好的。

这周就到这里。

我们的主题曲由托比·梅农创作,图形设计由娜奥米·普莱泽·帕克设计,制作由克里斯蒂·泰勒完成。感谢 DAIR 研究院一如既往的支持。如果您喜欢这个节目,您可以通过在 Apple Podcasts 或 Spotify 上评价和评论我们,以及访问 dair-institute.org 来支持我们。

我们的往期节目可以在 YouTube 和各种播客平台上找到。您可以观看和评论我们的直播,我们的 Twitch 直播将在 twitch.tv/DAIR_Institute 上进行。

再次感谢 DAIR 研究院。喵。