We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode #184 - OpenAI's Voice 2.0 + execs quitting, Llama 3.2, To CoT or not to CoT?

#184 - OpenAI's Voice 2.0 + execs quitting, Llama 3.2, To CoT or not to CoT?

2024/10/2
logo of podcast Last Week in AI

Last Week in AI

AI Deep Dive AI Insights AI Chapters Transcript
People
A
Andrey Kurenkov
J
Jon Krohn
Topics
Andrey Kurenkov:OpenAI发布了具有更多语音和新外观的高级语音模式;Meta的AI助手可以模拟名人的声音;Google的Gemini语音模式已在Android上免费提供。 Jon Krohn:语音模式是AI交互的未来,因为它比文本输入更灵活;OpenAI和Meta在AI语音助手策略上存在差异,OpenAI采用闭源策略,而Meta专注于开源模型;Gemini的实时网络搜索和处理大型文件的能力使其成为有价值的AI工具。 Andrey Kurenkov:Luma和Runway推出了AI视频生成API,标志着AI视频生成技术的商业化;Microsoft的Copilot Wave 2将AI集成到Microsoft 365应用中,提高生产力;Perplexity AI集成了OpenAI的O1模型,专注于推理能力的搜索功能。 Jon Krohn:OpenAI的O1模型在处理复杂的数学和编程问题方面显著优于GPT-4;Meta发布Llama 3.2对AI生态系统至关重要,因为它是一个与前沿模型竞争的大型语言模型,并且现在可以处理图像;阿里巴巴发布了OVIS 1.6,这是一个新的多模态大型语言模型。

Deep Dive

Key Insights

Why is OpenAI rolling out Advanced Voice Mode with more voices and a new look?

OpenAI is enhancing the user experience by adding more voices and a new design, making the AI assistant more versatile and engaging. The update includes custom instructions and five new voices, increasing the total to nine. This feature is primarily available in the US and represents a significant step in the evolution of conversational AI, allowing for more natural and real-time interactions.

Why is Meta paying celebrities millions of dollars for their voices in AI chatbots?

Meta is investing in celebrity voices to make their AI chatbots more appealing and engaging, hoping to increase user interaction with AI features across their platforms like Instagram, WhatsApp, and Facebook. This move is part of their strategy to attract users and demonstrate the capabilities of their AI, particularly in the realm of voice-based interactions.

Why is Grok partnering with Aramco to build a massive data center in Saudi Arabia?

Grok, a chip startup, is partnering with Aramco to build a data center with 19,000 language processing units, initially, and potentially up to 200,000 units. This partnership is aimed at providing significant AI infrastructure to Saudi Arabia, a country that maintains neutral relations between the West and other nations. The move is strategic for Grok to scale its services and for Saudi Arabia to advance its AI capabilities.

Why did OpenAI execs quit as the company removes control from the non-profit board and hands it to Sam Altman?

Several OpenAI executives, including the CTO, VP of Research, and Chief Research Officer, have quit following a reorganization that shifts control from the non-profit board to Sam Altman. This move towards a for-profit structure and the potential for commercial interests to influence governance may have led to these departures. The company is also facing challenges in maintaining its original mission of benefiting all humanity.

Why is O1, OpenAI's new model, particularly impressive in math and symbolic reasoning?

O1 is designed to handle complex tasks by using a chain-of-thought (CoT) approach, which allows it to break down problems and reason through them step-by-step. This capability is especially effective for math and symbolic reasoning, where it can achieve up to 50% better performance compared to GPT-4. The model's ability to spend more time on reasoning and planning makes it a significant advancement in these areas.

Why is Microsoft planning to power data centers using the Three Mile Island nuclear plant?

Microsoft has signed a 20-year power purchase agreement to reopen the Three Mile Island nuclear plant, now named Crane Clean Energy Center, to power its data centers. This move is part of their strategy to secure a reliable and sustainable energy source as AI models require significant power to operate. Nuclear energy, despite its past controversies, is seen as a stable and environmentally friendly option compared to fossil fuels.

Why did Governor Newsom sign bills to combat deepfake election content and protect digital likenesses of performers?

Governor Newsom signed several bills to address the growing concerns around AI-generated deepfakes and their potential misuse in elections and the entertainment industry. AB2655 requires large platforms to remove or label deceptive election-related content, AB2839 expands the timeframe for prohibiting such content, and AB2355 mandates disclosure for AI-generated performer likenesses. These laws aim to prevent misinformation and protect the rights of individuals.

Why is an AI tool like ChartWatch reducing unexpected hospital deaths by 26%?

ChartWatch, an AI early warning system, monitors changes in a patient's medical record and makes hourly predictions about potential deterioration. By alerting doctors and nurses to patients who need immediate intervention, it significantly reduces unexpected deaths. The system uses over 100 inputs, including vital signs and lab results, and has shown promising results in early trials. This technology could lead to more comprehensive health monitoring and timely interventions.

Why is Snapchat introducing an AI video generation tool for creators?

Snapchat is introducing an AI video generation tool to allow creators to generate videos from text prompts, enhancing content creation on the platform. This tool, powered by Snap's own foundational video model, is in beta and available to a small subset of creators. It aims to make video creation more accessible and creative, with plans to expand the feature in the future.

Why is Lionsgate partnering with Runway for AI-assisted film production?

Lionsgate is partnering with Runway to explore the use of AI in film production, particularly in pre-production and post-production stages. They aim to develop AI models that can create backgrounds and special effects, potentially reducing the need for traditional VFX crews and storyboard artists. This move is part of a broader trend of integrating AI into creative industries to streamline processes and enhance productivity.

Shownotes Transcript

欢迎回到人工智能领域,我在这里太热衷了吗?故事并不简单,你听到了机器人与我们交谈的低语,改变了开放式近端,引起了相当大的轰动,一切似乎都更加清晰,迈出了更大的步伐,视频在发展,世界就在我们的视野中,所以退后放松一下,深入了解薄弱环节。

您好,欢迎收听《人工智能的最后一周》播客,在这里您可以听到关于人工智能现状的讨论。像往常一样,在本集中,我们将总结和讨论上周一些最有趣的人工智能新闻。和以往一样,您可以访问lastweekin.ai查看我们的文本通讯,其中包含更多人工智能新闻,还可以通过电子邮件收听播客,其中包含我们讨论的所有文章的链接,这些链接也在节目说明中。

我是你们的其中一位主持人,Andrey Karenkov。我去年从斯坦福大学获得了人工智能博士学位,现在在一家生成式人工智能初创公司工作。正如我们在过去几集中所说的那样,Jeremy 忙于生孩子,最近没有睡觉。所以恭喜他。在可预见的未来,他将休假。我不确定适应这种情况需要多长时间,但大概很快。

一段时间。所以我们确实有一位客座联合主持人,他再次是我们现在已经做过几次的John Crone。是的,能来到这里真是荣幸。谢谢你再次邀请我,Andre。我很荣幸在最近发布的一集中,它说,我想我们会让John或其他常驻联合主持人回来。我想,是的,把我叫回来。恭喜Jeremy。这是一件大事。哇。我的意思是,没有什么比生孩子更重要了。

比生孩子还重要。所以我想知道他是否有时间收听这一集。我怀疑。这个祝贺只是,你知道的,好吧,祝贺任何最近生孩子的听众。我们真的在为你加油。是的。是的。我想我的两行传记是,

我主持着世界上收听率最高的数据科学播客。它叫做超级数据科学。与这个节目不同的是,它并不是一个新节目,它更像是一个访谈节目。大约三分之二的节目都有嘉宾。我们每周二和周五都会做一期节目。

而且,呃,我们有时在周五,大约一半的时间,不是请嘉宾,而是深入探讨一个主题。例如,最近的一个,我花了半个小时的时间讲解OpenAI的O1算法。正如你们所说,我认为Jeremy的引用是,至少是本季度的发布。我完全同意。这是,

一件轰动的事情。我不会详细介绍这一点,因为你们已经介绍过了。但是,是的,这就是我们所做的事情。我也是一家名为Nebula的人工智能公司的联合创始人兼首席数据科学家,该公司正在使用人工智能自动化白领流程,并且

是的,我实际上最近使用了一些发生的事情。Andre,我去年开始在电视上做一些事情,我还有一些我目前还不能公开宣布的事情,但正在筹备中,很快就会在电视上播出。这非常令人兴奋。

哇,听起来很令人兴奋。是的,你已经有了,什么,800?现在超过800集了,对吧?是的,现在超过800集了,我们邀请你和Jeremy都来过节目。我想看看我的电子表格加载速度有多快,这样我才能找到你的节目。是的,你的节目是第799集。嗯哼。

那是一集非常棒的节目。我们深入探讨了关于AGI和人工智能超级智能的对话,以及这将在未来几年如何改变社会,这并不是,你知道的,那并不是我打算真正要涵盖的主题,但我们深入探讨了它。顺便说一句,这至少是其中一个大型电视项目的内容。它正在为大众创作一个节目,讲述机器在智力方面超越我们后,未来几年一切将如何发生巨大变化。所以这可能会很有趣。是的,Jeremy也来过节目很多次了。他最近一次是在第545集。

所以人们可以查看这些内容,如果他们想了解更多关于《人工智能的最后一周》节目的优秀主持人的信息。是的,是的。那些都很有趣。你确实可以听到更多背景信息等等。在这里,我们确实试图将其主要内容保持在新闻或有时会有一些个人信息。我也说错了。Jeremy是565,而不是545。

和往常一样,在我们进入新闻之前,我想花一些时间来感谢评论和评论。我们在Apple Podcasts上又收到了一些。这总是好的。我们有一些……

我喜欢这个。我不知道你如何在节目中报道的任何事情上获得差评。你知道,也许我认为我们有一些缺点。我不知道。有一些,让我们说,建设性的批评是好的。但感谢你的赞扬。从Andrew那里又收到一个,我认为这是相当公平的。喜欢它,但不定期发布。这当然是真的。

最近,我将尝试寻找一位编辑,因为这是一个主要的瓶颈,我必须进行编辑。而且我有一些非常具体的需要完成的要求。所以它并没有像你希望的那样容易。

但是,呃,我,每种方式,比如,让我们希望,让我们希望我能保持未来的一致性。对于这些,对于制作播客来说,这是一个棘手的鸡生蛋的问题,因为人们期望你持续发布材料。就像你的听众理想情况下每周都期望它,可能是在同一天或类似的时间,这很难做到,但你有一份全职工作,Andre,而且你做到了

所有的编辑工作。所以然后出去雇佣一个编辑,你需要有,你知道,稳定的收入,但是然后获得稳定的收入,比如赞助,那种事情,这是另一个时间投入,这会影响你编辑和发布节目的能力。所以这是一个棘手的情况,让这些事情顺利进行。是的。是的。

但我确实觉得它很有趣。拥有这个播客总是一件有趣的事情。我想这确实驱使我去做。在我们进入新闻讨论之前,我只想再喊一声。在YouTube上收到了一些评论,看到这些总是很有趣的。特别是,我认为,是什么?Tangalo评论了最近的几集,实际上评论了最近一集的开头和结尾歌曲,并且,

实际上评论说它得分很低,建议下一次的主题类型,音乐类型,这实际上很有帮助,因为每次我创作歌曲时,我都想,这次我应该做哪种类型?你知道吗?

我还没做过什么?所以,如果你对开头或结尾的音乐类型有任何要求,请随时发送电子邮件,在YouTube上发表评论,这些事情之一,我肯定会尝试一下。

你最近一次的提示是什么?是大卫·鲍伊之类的吗?我认为是60年代迷幻或类似合成器的东西,但却是60年代的摇滚乐。我通常会尝试几次,而那一次得到了有趣的东西。我有太多被丢弃的歌曲草稿。是的。

好了,足够的前奏了,让我们进入新闻,我们从工具和应用程序开始,在那里我们看到新兴的会话式人工智能领域出现了一些令人兴奋的发展。所以首先是OpenAI,他们正在推出具有更多语音和新外观的高级语音模式。

所以我们已经有了这个语音模式,我们得到了GPT-4.0 Omni,现在已经有一段时间了。在这个模型的介绍中,关于它的一件大事是它是会话式的。你可以通过语音而不是文本与它交谈。

而且它是几乎实时的,对吧?我认为,就与人工智能进行会话式音频交互而言,这是一种相当具有突破性的技术。所以在这个新的更新中,它正在向付费客户推出,所以是Plus和Teams层,

他们将获得自定义指令,五个新语音。他们称之为Arbor、Maple、Sol、Spruce和Veil。不确定这些声音是什么样的,但一些很酷的名字。希望枫树真的像粘稠而浓郁。是的,是的,是的。这意味着现在你可以使用九种声音了。

还有一些其他的东西,正在进行新的设计。现在由一个蓝色的动画球体表示,我想,这比他们之前的小音乐或音频注释要酷一些。

就是这样。他们推出这项功能的速度一直很慢,所以看来他们现在正在收集足够的数据来改进口音,以便能够扩展语音等等。它似乎主要在美国可用。这在欧盟、英国、瑞士和许多其他地方都不可用。

是的,这是未来。说这是从必须能够打字转向的重大趋势之一是很明显的。这使得你与人工智能交互的方式更加灵活。

在录制时,就在几天前,Meta刚刚宣布与Luxottica在他们的Ray-Ban上进行更深入的整合,并在其中整合了人工智能。是的,所以这种AR体验或只是听觉输入、听觉输出可以由更小的设备支持。你不需要在你的面前打开一个屏幕。你不需要放慢你正在做的事情来用你的手指输入任何东西。

所以这显然是未来。是的,OpenAI的这种高级语音模式在能力方面处于领先地位。因为我已经有一段时间可以使用它了,所以我觉得自己有点不好意思没有亲自尝试过。

所以我想这将成为我本集之后要做的功课,尝试一下,看看我的感受。这是一个有点离题的话题,但我了解你们在这个节目中会离题,所以我不会为此感到难过。Andre,你试过Apple Vision Pro吗?我试过一次,有点讨厌。我更喜欢Vimeta伪产品。我实际上是一个VR迷。所以这就是原因。是的,但这绝对很酷。是的。

我喜欢它。我在那里有了一个非常像情感的体验。我几乎要哭了。他们,他们,我去了一家苹果商店做了一个演示,他们用一个非常令人心碎的视频结束了演示,视频中展示了美丽的事物,比如足球进球就在你面前。你就像环顾体育场,一个女人走钢丝,还有鲨鱼。它只是,他们试图创造一个非常身临其境和,嗯,

美丽的世界的愿景和兴奋。你会想,哇,活着真好。戴着这个耳机比在世界上更好。嗯,我不知道。无论如何,我非常喜欢它,但是,呃,是的,只是与,你知道的,它似乎是这种事情,比如增强现实,很容易想象十年后,也许不是有一堆屏幕,呃,

在你的办公桌周围。你可以让你的房间里的所有空间都被屏幕占据。我认为现在唯一的真正限制是电池寿命,因为你只能在Apple Vision Pro上使用两个小时。所以你现在可以用它完全取代你的办公室设置。

对。你会看到的另一个与之密切相关的趋势是这种会话式的东西。如果你有一个增强现实设备,甚至不是增强现实设备,比如

就像智能眼镜之类的功能,那么你将始终能够与人工智能助手等等进行对话。如果我们确实获得了这项功能,那么这将与之密切相关。当然。关于这一点,最后一点,我说,

我说,为什么你们不用电源线,而是用电池供电呢?因为这样我就可以整天使用了。他们实际上说不行,因为部分问题是过热。所以现在这个设备,它可能无法运行一整天。

是的,第一代产品,所以它会变得更好。接下来,一个与之非常相关的关于Meta的故事,人工智能现在可以用Awkwafina、John Cena和Judy D的声音与你交谈。

Dench。所以他们在很多应用程序上都有这个AI聊天机器人,比如Instagram、WhatsApp和Facebook。他们有一些你可以与之交谈的各种机器人。现在,除了名为Aspen、Atlas和Clover的非名人声音之外,你还可以获得这些名人的声音。这真的让我兴奋,因为它们是非人类的名字,就像

来自大自然。据《华尔街日报》报道,Meta正在向这些名人支付数百万美元的语音费用。

所以,再次,对我来说很有趣,我觉得他们在扩展到所有这些平台上的Lama之前就已经尝试过这个了。所以Meta在尝试让人们与他们在这些平台上提供的人工智能产品进行交互方面进行了相当大的投资。

应用程序。我可以说我仍然没有使用过任何东西,我使用WhatsApp和Instagram,而且我基本上忽略了这方面的人工智能。我相信很多人都在同一条船上。所以也许这是为了解决这个问题。我在WhatsApp上使用过它,它只是,它不是很有趣,因为对于这个播客的常听者来说,你可能非常清楚你正在使用Lama模型,并且

而且如果它是免费的WhatsApp,它可能不是最昂贵的Lama模型。

所以,你知道,你可以得到你期望的那种回应。没有什么令人震惊的。你不会像使用Cloud 3.5 Sonnet时那样获得最先进的功能。所以,我不知道,它并不太引人注目。我不认为现在对我来说很明显,我需要在WhatsApp中进行生成式人工智能对话,而不是在ChatGPT应用程序或Cloud应用程序中进行对话,后者是

同样靠近我的手机。没错。我对……有同样的印象。

而且通常我在日常工作中会经常使用聊天机器人,并且在执行任务的过程中也会使用。我只是在我的浏览器上打开一个标签页来访问Cloud或ChatGPT,这些东西。不要在IC中启动,但谁知道呢?也许我们很快就会和我们的人工智能成为朋友。现在它有了John Cena的声音,我就要进去了。

这就是我需要听到的。我想在这里指出的一件事,对于听众来说可能已经很明显了,那就是OpenAI和Meta在这里的不同战略选择,其中

一方面,这是你在节目中经常谈论的事情,OpenAI已经走上了封闭式人工智能的道路,即保持其模型的专有性,而Meta AI是开源模型的最大支持者。然后这里另一个战略差异是,OpenAI出于某种原因,已经决定尝试

不与特定的名人名字合作,而只是使用那些通用的树木名称,尽管他们确实因为Sky过于接近Scarlett Johansson而惹上了麻烦,并被她起诉。但是,是的,对于Meta来说,这是一个有趣的策略,说,好吧,我们将故意与这些名人合作,以获得他们的声音,而OpenAI除了Scarlett Johansson的插曲之外,似乎

故意避免这种情况。所以我不知道。我不知道。我不知道我是否有像,一个解释或其他更大的东西要说,但我想要指出这种区别。嗯哼。

进入闪电轮,有时这意味着我们更快地浏览这些内容,有时则不是。第一个故事应该更快一些。再一次,它与这个主题有关。那就是Gemini的语音模式现在可以在Android上免费使用了。所以我们在大约GPT-4.0发布的同时看到了这个Gemini实时语音聊天模式。

发布非常相似,因为它与语言模型(在这种情况下为Gemini)进行半实时对话。它现在已经面向大量的Android用户推出。它只支持英语,但他们表示它将

稍后将提供新的语言,它也只在Android上。它稍后将在iOS上推出。但是,如果你使用的是Android并且说英语,你可以很容易地与它交谈。应用程序的右下角有一个新的波形图标。

或Gemini的叠加层。所以这是另一个例子,你知道,这种模式正在取得相当迅速的进展。就在几个月前,我们才看到这成为可能。现在它正在广泛推出。

是的。我是一个Gemini的粉丝。我实际上订阅了ChatGPT、Claude和Gemini这三个,因为对我来说有不同的用例最终是有价值的。对于Gemini来说,它是实时的网络搜索以及非常大的文件,因为我认为现在最大的上下文窗口是200万个标记,这是一个很大的数字。所以你可以传入大量的音频或视频,这有时对于与播客相关的事情特别有用。并且

是的,我总体上是Gemini的粉丝。很高兴看到他们在语音方面也取得了这样的进展,就像我们本集中已经提到的其他大型参与者OpenAI和Meta一样。

是的,我认为对于所有这些公司来说,最重要的事情将是,就像你说的那样,接近实时。一旦这真正成为实时,你就可以看到Gemini在这里,显然我没有使用Gemini语音功能,但显然你可以打断人工智能的句子,这正朝着这个方向发展。但它将是你和我现在在这个节目中交谈的感觉,在那里我说的每一句话都可以做出反应,真正地实时反应。而有趣的是,一旦。所以很长一段时间以来,你和Jeremy只录制了这个播客的音频,但你们录制了视频。这是因为我们通过我们的面部和手势提供了很多额外的信息,这使我们能够进行更好的对话。

所以这将很有趣。而且我敢打赌,其中一些公司,也许所有公司都已经在制作原型,让你的网络摄像头或你的VR眼镜能够对你的面部表情做出反应,因为那样你就可以拥有诸如,诸如,这完全是推测性的。我不知道,但我使用的是Opal C1摄像头,并且

OpenAI最近收购了Opal,这是一家生产摄像头的硬件公司。他们为什么要这样做?在我看来,这里有一个很好的机会,因为想象一下,你正在查看ChatGPT对话中的输出,并且在你阅读时皱起了眉头。然后它可能会突然停止,并说,哦,对不起,我意识到我刚刚犯了一个错误,而你无需输入或做任何事情,就像没有技术上的理由不能发生这种情况一样。所以这可能只是测试和感觉你已经解决了问题,也许,你知道,可能与之相关的伦理问题。是的,这是一个有趣的推测。我没有想过这个问题,但这很有道理,为了让对话无缝进行。

能够看到你的脸并看到这些信号,比如,哦,让我插一句,这绝对是有用的。接下来,让我们离开与人工智能的对话,我们将转向人工智能视频,这是今年的另一个大趋势。这个故事是,

随着Luma在Runway几小时后宣布Dream Machine API,人工智能视频竞争加剧了。标题有点长,但信息量很大。所以这两家公司,Luma和Runway,我认为是人工智能视频生成领域的领导者,现在都在提供API。API是你可以通过编程方式使用的。所以不是在

网站的用户界面上点击按钮,编写文本,你现在可以编写一些代码来发送请求。这就是你如何制作另一个应用程序,或者将其与你公司的产品集成,无论是什么。

所以你现在有了这个API。它连接到Dream Machine的最新版本。他们说它的价格是每百万像素生成0.32美分,这是一种有趣的想法。

而对于Luma来说,就在几个小时之前,Runway也推出了API,你现在实际上需要填写一个表格才能访问它,而Geo Machines API则对所有人可用,我相信。

同样具有Gen 3 Alpha Turbo,具有不同的定价计划,非常相似。所以这是另一个趋势,你知道,不久之前我们才开始看到可用的视频生成,可以说是。现在他们正试图通过这些举措将其商业化。

你说你一开始说Luma和Runway是文本转视频领域的领导者,我认为对于易于访问的模型来说这是正确的,因为当然,还有那个很少有人能够访问的巨头Sora。是的。

接下来是微软,他们有一些新东西,它叫做Copilot Wave 2。他们有这个Copilot品牌,它基本上是微软与人工智能相关的一切。在这里,它专注于Microsoft 365。这就是他们所有的工具,Word、Excel、PowerPoint等等,

所以这将有一个名为Business Chat的聊天界面,它允许你将你公司中的知识与基于网络的信息结合起来。你可以创建这些名为页面的协作文档。

类似于Word文档,但团队成员可以对其进行扩展和协作。有点像Cloud的工件和一些像Perplexity这样的东西,它也允许你发布搜索结果。还有一个新功能,在网络模式和工作模式之间切换。

这使Copilot能够利用所有工作文档中包含的知识。我相信Gemini在Drive中也有一些类似的功能,你可以在那里与它交谈,并了解与你的上下文相关的某些文档。

最后一点,大概这里有很多东西,但有趣的一点是,PowerPoint有一个新的叙事构建器,它可以使用Copilot根据提示创建一整套幻灯片,包括过渡和演讲者笔记,对于在工业界、企业界工作的人来说,这可能令人兴奋。

是的,我不是微软用户,但他们在这个领域肯定做了很多事情,并且他们投入了大量资金。如果你看到他们像几十年来一样成为计算企业应用的领导者,你也不应该感到惊讶。现在人工智能处于计算的最前沿。

最后一点,这些功能还没有完全推出。所以Business Chat和Pages功能正在推出。其他功能已经宣布,但将在本月晚些时候出现在公开预览中。这里有很多功能。所以微软仍然非常积极地扩展其人工智能套件。

关于最后一个更新,在这里我们有Perplexity推出了一个新的基于OpenAI的O1模型的专注于推理的搜索。它旨在解决难题、数学问题和编码挑战。它是一个目前处于测试阶段的功能,可供付费的Perplexity Pro用户使用。

目前每天仅限10个查询,这可能是因为01开放式眼睛模型限制了你的API访问。

它实际上并没有与搜索集成。所以这基本上,看起来像是与O1的一种连接,只是间接使用它的一种方式。但Perplexity已经非常迅速地集成了各种模型。这是另一个例子,O1刚刚推出,Perplexity现在在其工具中就有了这个功能。

是的,一个相当奇怪的决定。是的,我不确定。从这一点来看,你并没有获得任何额外的价值,这并不明显。

来自Perplexity AI。但我猜想,如果你已经是Perplexity AI的订阅者,并且没有使用OpenAI的付费版本,那么这将让你能够访问O1。所以我想这就是优势。是的。我想知道,你试过O1吗?因为我玩过这个,实际上用它来编码。非常复杂的功能。

而且我必须说,与GPT-4相比,我印象非常深刻。哦,它在处理复杂问题方面要好得多。哦,绝对是。所以这是我的播客的第820集,它于9月20日发布。

我做到了。它几乎专门介绍了O1,长达半个小时。在其中,我也对该模型进行了大量测试。所以如果你观看YouTube版本,你可以看到我尝试不同事物的屏幕共享。一些最令人印象深刻的事情包括我复制粘贴问题。我教授机器学习微积分课程。

我从我的课程中拿了一些相对高级的问题,这实际上是一门入门微积分课程,但我从我的课程中拿了一些更高级的问题,比如偏导数,并且,

我将它们复制粘贴到O1中。它绝对完美地解决了这些问题,以至于你甚至不会想到你可以用GPT-4.0尝试这样做。如果你用GPT-4.0尝试这样做,就像你知道下一个标记预测只是,它是一个估计。它没有做数学运算。它不会检查错误。对。

所以即使是中等复杂的偏导数微积分问题,你得到正确答案的几率也很小,而GPT-4则不然。但是对于O1来说,每一次,我输入的每一个练习,积分也是如此,都运行得非常好。而且它的方式……

呃,表达的答案也很令人印象深刻。如果我的一个学生在课堂上像O1那样表达出来,我会想,哇,你应该教这门课。嗯,所以它也有助于……理解问题。所以,嗯,对于这些事情,比如偏导数、积分,O1会思考大约10、12秒。

但我尝试了一个更复杂的数学问题,坦白地说,我不理解。我不理解这个问题,但它花了大约90秒的时间来处理答案,然后在处理之后给了我一个回应,这甚至让我理解了这个问题的意思。它似乎也得到了正确的答案。所以非常令人印象深刻。还尝试了

有很多编码任务,我希望像GPT-4.0和Cloud 3.5 Sonnet这样的模型能够做得非常好。所以,我花了一段时间才想出一个我不期望Cloud或GPT-4.0能够正确解答的问题。最终我想到了创建一个交互式网站,该网站

是一个神经网络,我可以将鼠标悬停在神经网络中的节点上,并获得该部分的偏差,例如网络中该神经元的该节点的偏差。如果我将鼠标悬停在网络中的边缘上,它会显示该

神经网络中连接的权重。所以我想,这听起来很复杂。这是一个包含大量细节的长提示。它并没有100%正确。有些事情,比如我要求从左到右的箭头来显示通过网络的前向传播。

它没有渲染箭头。它只是渲染直线。但除此之外,它都做对了。HTML中的交互性,这是一大段代码。我的意思是,所以它显示了……的潜力

是的,简而言之,关于O1,如果你想得到这样的结果,正如Jeremy所描述的那样,拥有这种其他的、额外的扩展方式。我们已经有了,你知道,与使这些LLM越来越大相关的缩放定律,缩放数据量。现在你也可以缩放推理时间。因此,一个明显的扩展,Noam Brown,一位在O1上工作的研究人员,在

OpenAI的一篇非常棒的推特帖子中写道,这种处理现在可以扩展。你可以添加推理时间,而不是以秒为单位思考。

你可以思考分钟、小时、天,也许是几周。然后你可以提出非常复杂的问题,比如解决癌症,然后六个月后再回来看看它的进展。我有点简化了,但这其中蕴含着巨大的潜力。而且成本,就像现在一样,成本显然非常高昂。但就像计算中的其他一切一样,成本将继续以惊人的速度下降。

我们将找到软件的巧妙之处,使其在推理时间的成本大大降低,硬件也总是越来越便宜。因此,对于物理学、化学、生物学等特定用例,O1展示了博士级别的能力。

因此,即使我们只是处于今天L1的能力水平,你也知道它在未来几年会变得更便宜。因此,理论上,你将拥有遍布全球的无限数量的博士级硬科学家来解决问题。这是一个重大的改变。然后,当你考虑像更长的推理时间、围绕训练这些模型的方式的更多巧妙之处时,你

这不仅仅是硬科学领域的博士水平。在我看来,这很明显,

超过博士水平,比如,你知道,在任何你能想象到的定量学科中,都处于较低水平或更高水平。所以,随着它的成本变得非常低廉,那么,你知道,拥有它,它实际上是无限的智能,远远超过人类的能力。就像我们现在一样,我们正在关注这些事情,这些事情在仅仅一年前似乎是科幻小说。对。是的,O1,

说到你对这个故事的看法,关于你如何尝试拥有,我已经尝试过了。这是一件大事,对吧?正如我们已经讨论过的那样。这是一件大事,不仅因为它非常令人印象深刻,而且就它代表了一种新的改进范式而言,它超越了仅仅将训练规模扩大到扩展思考能力的规模。现在我要说的是,这里有一些警告。有一些挑战只是为了变得更好,但是,是的,

绝对令人兴奋。根据我的个人经验和你的经验,你可以说,相信炒作。

接下来是应用和业务,再次,就像通常情况一样,我们有一些与OpenAI相关的新闻,这些新闻与O1无关,而是与他们的执行团队和公司结构有关的一些戏剧性事件。所以这里的新故事,今天刚刚发布,

标题戏剧性地写道:“OpenAI高管集体辞职,公司取消非营利董事会的控制权,将其交给Sam Altman”。我要说的是,这有点言过其实,但也并非完全错误。所以,

所以这波浪潮中的一大部分,至少我所看到的,是一家公司的首席技术官Amira Muradi宣布离职。她在那里工作了六年半。这是一个相当重要的举动。

她的一些背景资料和去年Sam Altman被免去首席执行官职务的戏剧性事件有关。她是临时首席执行官。是的,她是临时首席执行官。她表达了一些担忧,听起来像是,虽然我不认为她直接将他赶下台。无论如何……

她现在宣布辞职。她说她想追求其他的机会,探索选择。所以这里没有什么巨大的戏剧性。

但除了她离开之外,研究副总裁和首席研究官也离开了,这似乎有点重要,因为发生了这些离职事件。这是继今年早些时候一些著名研究人员离开之后发生的。

所有这一切都紧随其后。我们还没有具体的细节,但是越来越多的细节或谣言传出,他们计划从非营利组织转变为基本上完全营利的、更传统的组织。据报道,Sam Altman还将获得股权

在开业时,我基本上会从首席执行官的职位获得一定程度的控制权和一定程度的经济利益。

所以,是的,在OpenAI的治理、公司结构或任何你想要称呼它的方面,这是激动人心且相当戏剧性历史中的又一章。是的,很多人,很多重要人物都离开了,现在很明显。Ilya Sutskever是最重要的研究人员,也是联合创始人之一。Greg Brockman还在。但除此之外,除了Sam Altman之外,我无法立即想到其他在多年来一直在这里工作的人的名字。

在领导层中,至少是公开的。就像,是的,所以现在很多人离开了。这确实看起来很有趣,因为如果你想想这家公司在商业上和品牌方面的表现如何,我的意思是,

我不知道。你认为在这档播客“上周的AI”中,超过一半的时间都是关于OpenAI的故事吗?是的。太疯狂了。在AI领域发生的事情中,有这么多事情处于最前沿,你可能会认为人们会比以往任何时候都更加坚持这一点。你会想,哇,我们一直在努力的事情,它真的有效。但与此同时,人们却离开了。是的。

是的,这些事情,比如追求利润,你知道,成为封闭的AI。是的,我想这改变了一切。

我想。这有点好笑,比如“封闭AI”这个术语或对OpenAI被封闭的批评可以追溯到2019年,你知道,作为一名博士生,OpenAI的前几年,它就像,你知道,一些奇怪的研发实验室正在进行强化学习研究,并发布一些开源软件包供人们使用强化学习。他们确实贡献了很多。而且,

他们早期开发的用于强化学习的PPO是一种非常重要的东西。所以,你知道,从某种意义上说,这是一个非常渐进的转变,从一个更开放的研究型公司转变为一个庞大的、价值数十亿美元的公司企业,

似乎正从这个研发实验室转变为一个专注于AGI并造福所有人的实验室,资本利润,所有这些奇怪的事情都是由他们将获得AGI的想法激发或驱动的。

再说一次,我们不知道他们所谓的转向营利性等等的全部细节。我们不知道这些离职事件是否与之直接相关,但一如既往,OpenAI似乎正在发生有趣的事情。另一件值得强调的有趣的事情是你没有简要提及的,但我认为值得更多关注的是,你谈到了Sam Altman现在如何在……中获得股权。

好吧,据推测,他将在OpenAI新的结构中获得股权。这很有趣。我对这件事的细节并不完全了解。我觉得这可能是你更了解的事情。我认为Jeremy肯定会有。我对它的记忆是Sam没有股权。这对我来说总是很奇怪。首席执行官没有股权。现在据说将是7%,据报道是这样的。这很多。这很多,因为通常……

初创公司会为所有员工预留大约10%的资本,包括首席执行官。所以7%是一个巨大的数字。

绝对的。对。一旦你像,你知道,很明显,如果你是一位创始人,你很早就拥有很大一部分股权。但是从没有股权的地位获得它是一个很大的举动。最后一件事情,我想值得介绍一些声明。所以Mira Barati确实发表了一份非常积极的声明。对。

没有批评任何事情。Sam Altman在X上发布了一份声明,让我来读一下。领导层的变动是公司自然的一部分,特别是那些发展如此迅速且要求如此高的公司。

我显然不会假装这次变动如此突然是自然的,但我们不是一家普通的公司。我认为出于Mira向我解释的原因,永远没有好时机。任何不突然的事情都会泄露。她想在OpenAI处于上升时期这样做。说得通。所以……

就是这样。让我们不要让它听起来像OpenAI肯定处于某种混乱之中。这只是很有趣。似乎故事的背后可能还有更多内容……

公开发布在推特上。同样,与你刚刚从Sam Altman那里读到的推文非常相似,Greg Rockman也发布了类似的内容。我对Barrett、Bob和Mira为OpenAI所做的一切都深表赞赏。我们一起工作了很多年。这是一篇很长的帖子。

事实上,如果有什么的话,我的意思是,我意识到我只是在制造,你知道,我在制造戏剧。但是,你知道,即使是那样,像让你期望的那样,你知道,每个人都在关注。Greg Brockman会说什么?Sam Altman会说什么?然后他们都说了一些非常好的话,长篇大论。这似乎有点人为制造的,我想。但是,是的,再次,完全是猜测。也许根本就没有什么戏剧性。

接下来,另一个关于OpenAI的故事,这有点奇怪,Jeremy,让我们讲一个安全故事。所以Sam Altman将离开OpenAI的安全委员会。这是他们的内部安全委员会,负责监督与公司项目相关的安全决策。

现在将由卡内基梅隆大学的教授Zico Coulter担任主席的一个独立的董事会监督小组,其中还包括其他几个人。该委员会仍然负责诸如安全审查等事项,包括他们对O1等事项的审查,并将继续定期从OpenAI安全团队获得简报。

对我来说,很难完全理解这意味着什么。听起来也许它正在变得更加独立,这是你想要的,对吧?你不想让Sam Altman在一个委员会中,该委员会负责监督和评估你可能出于商业利益而想要发布的东西的安全性。是的,我希望我是Jeremy,这样我就可以对这方面的安全问题提供更多丰富的色彩,但我不是。所以让我们继续下一个故事。

进入闪电轮。首先,我们有芯片初创公司Grok与Aramco达成协议,支持沙特阿拉伯的AI雄心。在过去的几个月里,我们一直在频繁地谈论Grok。Grok是先进芯片的生产商和设计者,用于

特别是运行AI模型进行推理。我们有这些语言处理单元,它们似乎在运行LAMA等模型的速度方面处于领先地位。现在,他们已经与石油生产商Aramco合作,在沙特阿拉伯建立一个巨大的数据中心。

据报道,这最初将拥有19000个语言处理单元。Aramco将资助这项开发,据首席执行官接受采访时透露,预计成本将达到九位数。他们说,该数据中心将在年底前投入运行,之后可能会扩展到总共1000个。

200000个语言处理单元,这将使其成为一个庞大、庞大的AI基础设施中心。我们当然听说过埃隆·马斯克说,他将在他们的超级AI推理中心运行100000个GPU。

另一个正在开发的项目。对我来说,这里一件有趣的事情是,这为那些在西方和例如

西方和例如中国、俄罗斯、伊朗等其他轴心国之间相当中立的国家提供了巨大的能力,你可以说,所以你有两种,你知道,这两种,嗯,工业体系在某种程度上正在变得有点脱钩,尽管它不像苏联时代经历的那种脱钩,呃,

但是,你知道,双方都在努力实施越来越多的关税和制裁。沙特阿拉伯是那些处于中间地位的国家之一。它与西方和其他轴心国自由贸易。所以,是的,这是一个有趣的情况。

是的,这是一个有趣的策略,而且至少目前看来,例如美国政客似乎并没有对向沙特阿拉伯出售200000个语言处理单元有任何抵制,沙特阿拉伯显然是……

美国在中东的关键合作伙伴。但是的,他们也是中国的关键合作伙伴。所以是的,这是一个有趣的……我不太了解地缘政治,但是……是的,我肯定这里有很多关于关系和影响的细微之处。无论如何,从商业角度来看,这对Grok来说显然是一件好事。而且他们似乎一直在崛起。

并且凭借这种投资,他们可以在这项技术中成为领导者,他们实际上可以扩大规模,并为在云AI推理领域真正竞争的更多公司提供服务。另一方面,对Grok(G-R-O-K)这家公司来说不好的事情是

对他们来说,X将他们的大型模型命名为Grok(G-R-O-K)一定很烦人。接下来是我们的下一个故事。

是的,你有一个很好的过渡。所以GROK,GROK,最近的部分新闻是因为它的新迭代,也因为他们已经将图像生成与来自Black Forest Labs的图像生成器Flux集成在一起。这个故事是关于这家公司Black Forest Labs的。他们正在以10亿美元的估值筹集1亿美元。

这家公司是由Stability AI背后的工程师共同创立的。基本上是一些真正的高级人士,他们参与了AI图像生成的一些关键技术和进步。这家公司实际上相当新,非常新。他们之前筹集了3100万美元。

听起来他们现在将筹集更多资金,并加入10亿美元估值的AI初创公司俱乐部,这不像以前那样普遍,不像一年前那样容易做到。

如今,与一年前相比。所以Black Forest Labs,显然对他们正在从事的工作有很多兴奋。我最喜欢Black Forest Labs的一点是它听起来多么美味。我无法听到Black Forest Labs而没有尝到黑森林蛋糕的味道。我认为这在科技公司中是独一无二的。没有其他科技公司的名字会让我垂涎欲滴。是的,我认为他们有一些听起来很酷的名字。而且说起来肯定比……

其他一些公司更有趣。接下来,另一个与我们在节目中经常报道的趋势相关的新闻。它是关于一个新的类人机器人。虽然这个机器人显然是半类人机器人。所以这是来自普渡机器人的。他们正在推出D7,这是一款半类人机器人,电池续航时间为8小时。

10公斤的举重能力,另一个似乎将相对便宜且实际上可用的机器人,它在5月份作为服务机器人行业长期战略的一部分被他们推出,因此有可能在商店等地方看到它

最后一点,半类人机器人是什么意思?明确地说,这意味着它没有腿。基本上它在轮式底座上四处移动,但它的顶部,它有一个躯干、手臂和一张脸。它是一个带有躯干的Roomba。是的,我想我们还没有见过很多人这样做。所以也许这里的半类人机器人策略会有所帮助。

但这很有意义。实际上,在我看到这种带有轮式底部和躯干顶部的半类人机器人设计之前,我还没有见过这种设计。但这很有意义,因为如果你考虑一下,没有,我的意思是,上下楼梯,我想这做不到,而这正是完全类人机器人可以做到的。但是能够上下楼梯是以牺牲大量的额外计算和可能还需要大量的能量来稳定事物为代价的。

而当你有了轮子,它只是支撑着一个躯干时,这对于电池续航时间来说将非常棒。它对于许多情况都将非常有用,因为现在你可以对,你知道,台面或,你知道,人类可以用自己的手臂在许多不同的高度接触到东西,而无需,是的,所有与腿相关的额外开支、复杂性和电池使用。对,完全正确。在……

他们发布的视频大约一分半钟,展示了许多用例。他们重点介绍的一个用例是零售场景、商品分拣和上架、取瓶和放置。所以你可以看到为什么这可能不需要腿。实际上,能够四处移动更好。

我必须说,你知道,Black Forest Labs,我认为这是一个伟大的公司名称。它让我垂涎欲滴。很容易知道如何拼写和输入它。我必须说PUDU,P-U-D-U,PUDU。我的意思是,拜托。听起来像是幼儿园的孩子想出来的。我不知道。

我不知道。也许这取决于一些背景。它位于深圳,所以也许我们并不完全理解。对,我们只是不明白。他们说,它很美味。你还没尝过巫毒吗?

接下来是最后一个故事。它是关于亚马逊的,他们正在为第三方卖家推出Amelia,一个AI助手。这被描述为一个多合一的基于生成式AI的销售专家。它将向美国部分选定的卖家提供测试版。而且,你知道,这是亚马逊试图包含生成式AI的持续演示。他们已经推出了……

名为Rufus的AI驱动的购物助手,业务聊天机器人Q。他们推出了一种,我相信,帮助使用AWS的人们了解如何做到这一点的东西。这是该轨迹中的另一个工具。而且我

显然,亚马逊的40多万第三方卖家使用了其AI列表工具,这比6月份的20万有所增加。所以也许第三方卖家会从这个工具中获得很多用途。对我来说,有趣的是,大多数其他大型科技公司,事实上,也许所有公司,

他们试图在一个名称下推广他们的生成式AI能力。而亚马逊,我想,反映了其公司结构,在那里,你知道,你有了那些著名的“两个披萨团队”,你总是试图让小型团队高效工作。最终创造了这种由许多不同类型的模型组成的拼贴画。Rufus,购物助手,业务聊天机器人Q。现在是Amelia,这似乎是那种

虽然我完全理解在幕后,这是不同的基础设施,不同的模型权重,从数据科学开发的角度来看很有意义。但从营销的角度来看,我认为这非常令人困惑。我不知道,就像我最近在我的亚马逊购物体验中看到Rufus出现一样。这并不是我喜欢的东西,就像在WhatsApp中使用Meta AI一样。我就像……

我很好。进入项目和开源。即使我们已经快一个小时了,这也许是本周的头条新闻。如果你是一个密切关注AI新闻的人,当然是这样,

Meta发布了Llama 3.2,它得到了重大更新。它能够处理图像和文本。所以这都是Llama 3、Llama 3.1的局限性。即使它们已经变得非常庞大,它们也无法摄取图像,当然GPT-4.0和其他东西可以。

现在你可以给它图像,他们说你可以将它用于各种AI应用程序,例如理解视频、视觉搜索等等。

有两个视觉模型。所以有一个110亿参数的视觉模型和一个900亿参数的模型。除此之外,Llama 3.2还附带了两个轻量级的纯文本模型,参数分别为10亿和30亿。与我们在Microsoft的FI中看到的情况、在Google的Gemma中看到的情况有些类似。这些是压缩模型

似乎运行得很好的模型。它们似乎是从非常大的Llama模型压缩到这些相对较小的语言模型,这些模型仍然能够做很多事情。这伴随着许多公告,实际上,他们已经进行了演示。所以他们还宣布……

他们的Ray-Ban Meta眼镜获得了更多功能。他们演示了从西班牙语到英语的实时翻译。他们有一个增强现实原型,当然这将整合AI,大概如此。但是,拥有一个非常好的开源模型,现在能够处理图像,这

从某种意义上说是一个改变游戏规则的东西,因为Llama 3.0作为一种至少在某种程度上与前沿模型竞争的大型语言模型,已经对AI生态系统非常重要。现在我们可以处理图像了。你知道,它使它成为一个更有用的工具,对于那些想要构建某些东西但依赖OpenAI的人来说。

完全正确。是的。我的意思是,赞扬Meta继续支持这些类型的开源发布。作为一家AI初创公司的数据科学部门负责人,我本人非常感激。我们能够利用这些模型。这些是我们的偏好。

Llama架构,我们获得了各种可能的尺寸,许多不同的微调,你知道,用于代码生成或聊天应用程序。对于开发和部署AI模型的每个人来说,这是一个巨大的服务。所以我深表感激。你知道,我们能够拥有我们自己的专有软件。

模型运行在我们自己的基础设施上,至少就训练而言,成本几乎微不足道。如果我们必须进行预训练,那么创建真正经过良好微调的模型来完成我们需要它们完成的任务可能会花费数百美元、数千美元,这将花费Meta数亿美元的投资。所以这也与

你知道,我们在本集的前面谈到了这些,我们谈到了所有这些正在添加的新语音以及Meta试图将我们这些免费产品的消费者推向使用这些AI工具。部分原因是。

Meta,马克·扎克伯格,希望能够向投资者展示他们正在获得某种回报,例如,由于在开源研究上花费了数十亿美元,Instagram的参与度有所提高。

下一个故事,与之密切相关,阿里巴巴发布了OVIS 1.6,一个新的多模态语言模型。所以阿里巴巴是来自中国的AI领导者。我不知道,你可以说,它是来自东方的亚马逊。

他们已经揭示了这个多模态大型语言模型,这意味着它与Llama 3.2在能够摄取图像和文本方面相同。所以OVIS代表开放视觉,他们介绍了一种新的技术

用于多模态大型语言模型架构的技术。他们已经发表了一篇关于这些内容的完整论文,这是对他们代码库的更新。所以他们正在添加这个新版本1.6,它是在Apache许可证下发布的。

他们发布了一个模型,他们发布了一个演示,当然,它更好。它是在更大、更多样化和更高质量的数据集上进行训练的,并且还进行了指令微调。所以它似乎在各种基准测试中表现得非常好,超过了其他基准测试。

各种多模态大型语言模型在几乎所有类型的基准测试中都有表现,包括我们上周讨论过的 QN2VL。可能无法超越 LAMR 3.2,但谁知道呢,也许差不多。所以对于多模态大型模型来说,这绝对是令人兴奋的一周。

是的。对我来说,这个版本中最重要的内容是这个术语,我以前从未遇到过,MLLM,多模态大型语言模型,我非常喜欢它,因为它让之前的称呼有点混乱。最初我们使用 LLM 来描述仅支持文本输入和文本输出的 LLM,这非常简单明了,因为输入和输出都是语言,即使是

编程语言,好吧,仍然是语言。但是随着这些模型变得多模态,有时它们被称为基础模型,这个术语没有那么广泛使用,也不够明确。所以我喜欢这个 MLLM。而且我也喜欢,我喜欢它的一部分原因是,即使它是多模态的,即使它具有视觉能力,例如 Ovis 的情况,

它仍然依赖于抽象层面的语言才能实现其视觉能力。因此,LLM 的语言能力增强了视觉模型必须使用的世界模型,视觉能力必须使用的世界模型,并且在这方面是互补的。对,完全正确。模型本身,虽然过于技术化,但有点……

将图像和文本融合在一起,你可以说,就像两者都被标记化,转换成这些符号集,然后转换成一个大的向量,一堆数字,然后最终两者都进入一个大的神经网络,有点像一起。所以这里面有图像和文本表示的混合,以及图像和文本之间大量的交叉引用。所以是的。

因此,您可以潜在地,你知道,您可以扩展规模,在更多图像和更多文本上进行训练。而且,你知道,你可能会得到更好的整体结果。

接下来是研究进展,我们有两篇论文。第一篇是“是否使用思维链”?结果是思维链主要在数学和符号推理方面有所帮助。所以 COT 是思维链。我们已经多次提到过它。因此,快速回顾一下,它只是告诉你的模型,你知道,先思考一下,首先思考

列举你的思维链,基本上是仔细思考问题,然后给我答案,而不是直接跳到答案。对此已经进行了大量的研究,有很多已知的使用方法。当然,OpenAI 的 GPT-01 已经内置了思维链并经过训练可以做到这一点。

思维链,或者你可以说推理,这肯定与思维链有关

无论如何,这篇论文都在研究思维链提示是否真的有用,并使 LLM 更好。他们从对 100 多篇论文的大量分析中发现,它确实有助于数学和符号推理,但在其他任务上,如常识推理、文本分类、上下文相关的问答等方面,

可以说是差异较小。它不会给你带来那么大的性能提升。所以这可以说是更多的是一篇实证论文,对吧?他们只是展示了使用这种方法进行大量不同评估的结果。

也许并不完全令人惊讶的是,思维链和列举你的思维方式主要对数学和符号推理、逻辑推理等需要你逐步思考问题的事情有用。

但另一个不错的发现也有助于更好地了解警报的工作原理。我想在这里做一个简化的概括,这在我理解思维链或 O1 风格模型在哪些方面优于 GPT-4-0 风格模型方面一直很有用。那就是……

丹尼尔·卡尼曼的“思考,快与慢”范式。丹尼尔·卡尼曼在今年早些时候去世了,他是诺贝尔经济学奖得主,几十年来因进行大量研究而闻名,特别是与一位名叫阿莫斯·特沃斯基的人一起研究人脑是如何工作的。他们得出的一个重要结论,也就是这本书的标题《思考,快与慢》,是我们的思维有两种系统。

所以你有一个快速的系统一,思考快与慢。第一个是快速的系统一。那就是你的直觉。这就是我现在正在做的。话语只是从我的嘴里说出来。它们只是脱口而出。我没有计划我正在说什么。它只是发生了。这就像 GPT-4-0。

所以在撰写电子邮件或编辑你撰写的文档副本等任务中,这种系统一在不提前思考的情况下吐出文字的方式可以很好地处理这类问题。

GPT-4-0 可以做到。所以在几周前的 O-1 研究公告中,他们对不同的主题领域进行了比较,在像我刚才说的那样,比如写电子邮件或编辑文本方面,GPT-4-0 甚至可能比 O-1 更好,或者至少在人工评估中两者相当。他们在人工评估中表现大约是 50-50。

而是在利用你的慢速思维的任务中,“思考,快与慢”中的系统二,当我处理一个我还没有熟练掌握的数学问题时,我需要把它分解成几个部分。我需要花时间用铅笔和纸盯着问题看。正是这些需要你停下来思考的问题

和思考,思维链类型的系统,如 O1,显著优于。所以这就是我的,你知道,当我想到

我可能需要 LLM 来完成的任务时,我想,你知道,这是一项系统一类型的任务吗?在这种情况下,我可能会选择 cloud 3.5 Sonnet。而如果这是一项系统二类型的任务,比如编写一些非常复杂的代码,做一些数学运算,当然。如果我经常遇到物理问题,就像杰里米可能那样,他可能总是坐在家里做物理题。对。是的。

那么,你知道,在这种情况下,我会立即选择 O1。完全正确。因此,他们确实表明,在这些类型的数学和符号推理问题上,要获得数字,你看到的改进,比如说,高达 50%、20%,相当高的可能改进,而如果你考虑常识推理,你仍然可能会看到一些改进,这取决于你的上下文。

但这可能只是百分之几,例如。所以你真的不需要它。如果你能够做出快速的常识性回应,或者只是需要了解一些知识,就没有必要像你说的那样提前计划。

下一篇文章,与相关主题非常相关,标题是《LLM 仍然无法规划?LRM 可以吗?对 OpenAI 的 O1 在 PlanBench 上的初步评估》。这篇论文使用了这个我以前从未听说过的术语“大型推理模型,LRM”。不确定它是否以前被使用过,但是

他们确实说 O1 或 Strawberry(据他们说是代号)据称是一个大型推理模型,旨在克服 LLM 的局限性。他们在本文中表明,它确实在经典规划任务上取得了显著改进,但仍然没有显著改进

能够进行 10、12、14 步的长规划。他们是如何做到这一点的?在这种情况下,规划是什么?PlanBench 是什么?

这里的想法是,在人工智能中,有一类被称为规划问题的问题,你基本上有一个你想达到的目标状态,用某种变量集来表示。他们在这篇论文中使用的一个例子是这个积木世界问题,你有一组积木。

它们彼此堆叠或处于各种物理配置中。你有一组动作,比如拿起一个积木和

将一个积木从另一个积木上取下来,放下一个积木,并将一个积木堆放在另一个积木上。因此,你可能有一组你想要从初始集合达到的积木配置,你需要一个接一个地执行这组动作,拿起、堆叠、取消堆叠才能到达那里。

从人工智能和机器人技术的早期开始,就有一整套算法,比如斯坦福大学的 PGL、Shakey,可以解决这类问题,找到从一个状态到另一个状态的动作序列。如果你有精确的动作,你甚至不需要机器学习。你可以直接进行规划。所以……

在这里,他们评估 O1 是否能够给出状态的描述和它可以采取的一些动作,它是否能够生成有效的计划。它确实比 GPT-4.0 和几乎任何其他语言模型的性能都要好得多。

但是当你增加路径长度时,再次达到 12、14、15 步,在这种积木世界类型问题的上下文中,它的正确性仍然降为 0%,其中只有几种类型的动作和一个非常具体的你想要达到的状态。

从某种意义上说并不令人惊讶。这是将软推理(可以说是神经网络推理)与更算法化的东西进行比较。从这个意义上说,规划本质上是在一系列事物中进行搜索,这可以说是纯粹算法的游乐场,而不是神经网络。

所以,是的,就像你说的,我喜欢这个新的术语 LRM 语言推理模型。这非常符合我刚才谈到的“思考,快与慢”的范畴,其中 LLM,他们在这里谈论的方式,是快速的系统一思维,你只是在吐出文字。而 LRM 则需要时间在生成输出之前进行反思和规划。

关于 Black Mound,还有几个故事,首先是进展而不是论文,一些更有趣的东西。这个故事是挪威初创公司 1X 推出了一个用于机器人训练的人工智能世界模型。1X 是人形机器人领域的主要领导者之一。他们有他们的

机器人 Eve,他们说他们现在有一个基于人工智能的世界模型。这个世界模型本质上是为了让你能够在动态环境中执行各种类型的任务。它可以模拟世界,这就是世界模型。它本质上是预测如果你采取某种物理动作会发生什么的能力。

他们在模拟中进行了训练,并使用了各种技术来获得最先进的世界模型,在机器人处理衣服或单个物体、开门等实际环境中要好得多,这使得它能够在新的环境中相当可靠地工作。

如果你是一个机器人专家,如果你对我们看到的人形机器人进展感到兴奋,这将是令人兴奋的。

还有一点需要注意的是,他们还启动了 1x 世界模型挑战赛,他们通过提供超过 100 小时的预训练模型视频数据和为能够在此基础上改进的人提供现金奖励来激励更多进展。

是的,非常酷。有些人认为,AGI 的实现需要机器人能够拥有某种体现并探索世界,而不是仅仅能够成为,你知道,一种数字化

数字媒体输入,数字媒体输出类型的模型。有趣的是,这种范式,你有一个世界模型模拟器,它可能会加速人工智能系统探索的能力,你知道,因为实际在世界上探索是非常昂贵的。所以,是的,如果你能够以某种方式虚拟地做到这一点,就像这似乎做到的那样,那么是的,它确实可以真正加快机器人训练的速度。

最后一个故事,根据一项加拿大研究,人工智能工具将医院意外死亡人数减少了 26%。这是关于一个名为 ChartWatch 的预警系统,它导致多伦多圣迈克尔医院住院患者的意外死亡人数减少了 26%。

该系统监控患者病历的变化,并每小时预测患者是否可能恶化。因此,这包括来自患者病历的约 100 个输入,包括生命体征和实验室检测结果。

它可以提醒医生和护士注意病情恶化、需要重症监护或处于死亡边缘需要干预的患者。根据这项研究,他们查看了超过 13,000 例内科病房的入院情况,并将其与其他亚专科病房的入院情况和患者进行了比较。

看来它在内科病房的背景下确实有所帮助,是的,这是一件大事,我喜欢它来自……我在多伦多市中心长大,我去过圣迈克尔合唱学校,它就在圣迈克尔医院旁边,我不知道这与这件事有什么奇怪的个人联系,这让我觉得哇,这太酷了,而且……

尤其是因为这 26% 的下降是巨大的。我的意思是,四分之一的意外死亡。如果你认为这是一个早期版本的系统,并且向前发展,当你看到这些系统运作良好时,就像我们在这里从 ChartWatch 中看到的那样,你会说,好吧,我们在这个粒度级别有 100 个输入。我们可以在医院系统中记录更多的数据,并训练更多、更多、更好的数据。对。

越来越好的 AI 系统。所以这只是一个开始。因此,即使使用可能在相对有限的数据上工作的原型,也能看到意外死亡人数减少 26%,这确实令人兴奋。我认为这与我认为我们将在有生之年拥有的世界有关,在这个世界中,大量数据正在被收集和监控,不仅在急诊室,而且在

在你的卧室里,在你的家里,让我们对自己的健康有很好的了解,并对处于死亡边缘的人发出预警系统,并能够进行干预。没错。非常令人兴奋。值得注意的是,作为一个警告,这当然只是一家医院,所以我们需要对此进行更多研究。

收集的数据也在一定程度上是在 COVID 期间收集的。时间是 2020 年 11 月到 2022 年 6 月。所以上下文有点不同,但这就是你得到的。就像这是一项为期一年半的研究,在一所真正的医院收集真实数据。所以这当然是一个非常积极的信号。

现在谈谈政策和安全,我们将回到我们越来越多地讨论的一个话题,那就是你将如何实际为所有这些需要大量能源的数据中心供电,这比电网过去为数据中心供电所使用的能源要多得多。

下一个故事提供了一个答案。显然,三里岛核电站将开放为微软数据中心供电。三里岛有点臭名昭著。它是美国历史上最严重的商业核事故发生地。看来已经与控制这个地方的人签署了电力购买协议

使这座核电站能够提供能源。他们达成了 20 年的协议,该电厂预计将于 2028 年重新开放,并更名为鹤清洁能源中心。需要明确的是,这是重新开放,因为它在 2019 年由于无法与更便宜的能源来源竞争而关闭。

所以这并不是说从几十年前重新开放一个完全关闭的工厂。这更像是微软投资以获得另一种能源来源,除了,我想,非核能源。是的,希望几个月来 O1 和更多像 O1 这样的模型将很快做到的思考能够帮助我们在短期内实现核聚变能源。但与此同时,核裂变是……

是我们拥有的最佳能源之一。这很有趣。有些国家,比如德国,非常反对使用核能,但它是与太阳能和风能并存的能源组合的重要组成部分。

因为它可以提供大量的太阳能和风能。你不能总是保证你会阳光明媚或有风。你可以有电池,而且电池也越来越好了。但是,将核聚变作为你的后备能源,而不是,比如说,石油或天然气发电机,显然对环境更好,至少在二氧化碳方面是如此。是的,使用核聚变,你会产生核副产品,但是……

我们非常擅长管理这些副产品,我们也非常擅长管理核电站的风险。新一代的核电站没有任何像三里岛那样的问题记录。没错。

接下来,一个与政策相关的新闻。纽森州长签署法案打击深度伪造选举内容。我们一直在报道 SB1047,这是一个重要的法规法案。但事实证明,还有其他与人工智能相关的法案正在发生。

最近在加利福尼亚州签署了一系列与人工智能相关的法案。这些与深度伪造选举内容相关的法案包括 AB2655,该法案要求大型在线平台删除或标记具有欺骗性和数字篡改的与选举相关的內容,并提供举报此类内容的机制。

AB 2839 扩展了禁止实体分发具有欺骗性的 AI 生成选举材料的时间范围。这大概是指,你知道,在选举的背景下,你应该什么时候不这样做?它还扩展了现有法律的范围,以禁止欺骗性内容。

最后是 AB 2355,该法案规定,使用 AI 生成或大幅修改内容的选举广告必须进行披露。

就是这样。一系列关于选举的 AI 修改内容的法案。我们报道的关于深度伪造和选举的新闻不多,但有一些。所以也许可以展望新兴趋势。是的。我的意思是,你知道卡玛拉·哈里斯在任何她发表讲话的场合都没有观众吗?是的,是 AI。是深度伪造。100% 是 AI。是的。

没错。接下来,还有几项法案,实际上与选举和深度伪造无关。这些法案是关于表演者的数字肖像的。有一项法案 AB2602,该法案要求合同中明确说明使用 AI 生成的表演者声音或肖像的数字复制品。

受到 SAG-AFTRA 历史上罢工以及一些相关谈判的影响。所以我想加利福尼亚州确实有好莱坞。在这里为这类事情建立实际的法律先例是有意义的。

我很好奇,约翰,你是一个播客主持人。你有很多数据。你有没有想过要制作一个数字复制品?我们实际上正在探索让超级数据科学播客以其他语言播出。因此,我们正在考虑将葡萄牙语(巴西)、西班牙语和阿拉伯语作为额外的播客。

播客的额外版本,以让我们接触到说这些语言的数十亿人。因此,您可以,你知道,大大增加我们的受众,而且这些工具也开始变得非常好了。所以是的,这是一件,这是一件让我总是对正在发生的事情感到不知所措的事情,我想,哦,天哪,这似乎有很多事情要做。你知道,你正在谈论,你知道,全新的 YouTube 频道和播客 RSS 提要,以及,

但是是的,有很多潜在的听众,你可以对他们产生影响。所以是的,绝对值得探索。是的,是的,当然。我认为我之前在播客中提到过一次。我用 11 labs 的文本转语音生成器玩过,并向它输入了大约三个小时的这些录音数据,并得到了一个相当不错的复制品。所以如果你想要一个你的 AI 版本,你绝对可以尝试一下。

最后一个故事。据联邦贸易委员会称,“世界上第一个机器人律师”背后的初创公司因虚假广告而支付 193,000 美元。这是一个有点好笑的故事,但我认为也是一个严肃的故事。显然,联邦贸易委员会已经对初创公司 Do Not Pay 采取了行动。

该公司被宣传为“世界上第一个机器人律师”。联邦贸易委员会发现,这家公司 Do Not Pay 没有进行任何测试来验证其 AI 聊天机器人的输出是否等同于人类律师的水平,也没有聘请任何律师来验证其法律主张。因此,Do Not Pay 支付了 195,000 美元的罚款。这看起来并不巨大。

并且有一个为期 30 天的公众评论期,大概是这样。他们还同意告知过去几年订阅服务的消费者这些功能的局限性。

他们还被禁止就这些服务能够替代专业律师做出毫无根据的主张。你必须认为他们在这里获得的媒体曝光价值远远超过 200,000 美元。这是其中之一……

没有新闻就是坏消息的情况?不。我认为这是反过来的。任何新闻都是,是的,任何负面新闻都是好新闻。是的。我认为除了罚款之外,更重要的事情是禁止就 AI 能够取代律师做出毫无根据的主张。这似乎是名为“AI 合规行动”的更大行动的一部分,该行动

旨在打击具有欺骗性的 AI 主张。所以一个主要问题是人们对 AI 工具做出了不真实的声明。非常奇怪的公司名称,Do Not Pay。我的意思是,我想这有点,所以他们将自己定位为 AI 消费者冠军,来帮助你。他们使用 AI 来帮助你对抗大公司,保护你的隐私,寻找隐藏的资金并战胜官僚主义。所以

是的,我想这最初是从处理停车罚单开始的。我想这就是名字的由来。所以,比如,不要支付罚款。但看起来他们将支付这 193,000 美元的罚款。很好,很好。进入最后一部分,合成媒体和艺术。我们实际上在这个部分有一些非常重要的故事,我想。

首先是 Snap 为创作者推出 AI 视频生成工具。如果你不知道,Snapchat 有一个类似于 Instagram 或 TikTok 的功能,你可以在那里看到创作者发布视频和各种小品等等。

显然,此工具将允许创作者根据文本提示生成 AI 视频,将来还将根据图像提示生成视频。该工具处于测试阶段,仅提供给一小部分创作者,但预计以后会扩展。显然,此工具由 Snap 自己开发的基础视频模型提供支持。

所以是的,他们正在集成直接的 AI 视频生成供任何人使用。因此,他们将使用图标和上下文卡片来告知用户何时使用 AI 生成内容,并为任何 AI 生成的视频添加水印。

接下来,基本上有一个类似的故事,YouTube Shorts(再次类似于 TikTok 和 Instagram)将集成 Google 的 AI 视频模型 Vio。这只是一个公告。所以……

那里的创作者将能够集成和使用 AI 视频生成以及 VEO 的其他一些功能来编辑、重新混合和生成 6 秒长的独立视频剪辑。所以视频生成基本上已经进入各种平台。是的,它正在爆炸式增长。这是其中之一,你

一年前在这个节目中,你们在谈论这是下一个前沿。一年后,我们就在这里。是的,我们正在弄清楚。还有很多改进的空间,但它一直在变得更好。最后一个故事。Lionsgate 与 AI 公司 Runway 签署协议,并希望 AI 能够淘汰故事板艺术家和 VFX 团队,至少根据这个故事是这样。

我们很早就开始关注 Runway,现在我们正在结束对 Runway 的关注。现在达成了这项协议,AI 研究公司 Runway 将为他们提供一个基于 Lionsgate 电影和电视内容的 AI 模型。Lionsgate 是一家制作公司。我相信他们制作了《疾速追杀》等许多电影。

他们将尝试看看是否可以使用它来替换 VFX 艺术家来创建背景和特效,例如。非常初步,他们将看看这是否可以用于前期制作或后期制作,但在尝试使用他们自己的数据训练自定义模型方面似乎领先于其他人。

好了,这就是全部内容。我们完成了另一集节目,希望这集节目在我们录制后一两天就能发布,不会再有延迟了。感谢您的收听,一如既往。感谢您在 lastweekin.ai 子堆栈上发表评论、评论和订阅。

一如既往,我们感谢您的观点、评论等等。我们也感谢约翰代替杰里米,并成为一位很棒的客座主持人。说真的,我很高兴。Last Week in AI 播客是我唯一一直收听的播客。所以能来到这里一直是我的荣幸。

我还记得第一次发生这种情况的时候。我当时想,我的天哪。我将能够在我的最喜欢的节目中听到自己的声音。我很高兴你们一直让我回来。我非常喜欢它。太有趣了。是的,向你致敬。安德烈,你每周都要付出巨大的努力,我相信所有收听的人都会感激不尽,但这值得强调。我的意思是,从你必须整理的故事数量到……

然后决定并策划您要报道的列表,对其进行组织,确保没有重复。这只是在您开始录制之前,然后显然是设置录制时段,进行录制,进行所有后期制作。安德烈,你每周在节目中做的工作真是太疯狂了。所以我感谢你。我相信你们所有的听众也一样。哇。这是很好的赞扬。而且,你知道,我想这确实是一些工作,但它总是很有趣,我很高兴人们确实喜欢它。所以,是的。

如果您确实喜欢它,请继续收听,并请欣赏这首人工智能结尾曲,它大概会有柔和的钢琴声,或者可能是金属乐。我会尝试跟进我们 YouTube 评论员的建议,尝试其中一种。