We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode #185 - Movie Gen, ChatGPT Canvas, OpenAI's VC Round, SB 1047 Vetoed

#185 - Movie Gen, ChatGPT Canvas, OpenAI's VC Round, SB 1047 Vetoed

2024/10/12
logo of podcast Last Week in AI

Last Week in AI

AI Deep Dive AI Insights AI Chapters Transcript
People
A
Andrey Kurenkov
G
Gavin Purcell
Topics
Andrey Kurenkov:Meta 发布了 MovieGen,这是一款功能强大的 AI 视频生成器,其性能优于现有模型,能够进行视频编辑和音频生成。MovieGen 的出现标志着 AI 视频生成技术取得了显著进展,但目前尚未公开发布。 Gavin Purcell:MovieGen 的图像修复功能非常出色,这对于 AI 视频应用具有变革性意义。AI 视频技术正在朝着世界模拟器的方向发展,这将对游戏和娱乐产业产生深远影响。未来,AI 视频生成技术将变得越来越普及,人们需要适应并了解这些工具。 Andrey Kurenkov:OpenAI 推出了新的 ChatGPT 界面“Canvas”,它更适合写作和编码项目,改进了用户体验,允许用户直接在工作区中生成和编辑文本或代码。这标志着 AI 聊天机器人用户体验的改进。 Gavin Purcell:OpenAI 的开发者日发布了实时 API 和其他开发者工具,其中实时语音 API 最为突出,这将改变人们与 AI 交互的方式,并可能导致键盘在未来被语音输入取代。

Deep Dive

Key Insights

Why did California's Governor veto the AI regulation bill SB 1047?

California Governor Gavin Newsom vetoed SB 1047 because he believed it focused too much on regulating the largest AI systems based on model size rather than on the outcomes and uses of the AI. He argued that the bill applied stringent standards to even the most basic functions if a large system deployed them, which he felt was not the best approach to protecting the public from real threats posed by the technology.

Why is OpenAI's new logo causing shock and alarm among staff?

OpenAI's new logo, described as a large black box or ring, is causing shock and alarm among staff because it is seen as less iconic and more inhuman compared to their previous hexagonal geometric logo. The new design is perceived as cold and brutalist, which does not align with the company's brand or the optimistic image of AI.

Why is Meta's MovieGen significant in the realm of AI video generation?

Meta's MovieGen is significant because it introduces advanced features such as video editing, object swapping, and in-painting, which allow for more precise and creative control over AI-generated videos. It also generates high-quality 16-second videos at 16 frames per second, outperforming current models like Runway Gen 3 and Sora. However, it is not yet available for public use.

Why did OpenAI launch a new 'Canvas' interface for ChatGPT?

OpenAI launched the 'Canvas' interface for ChatGPT to provide a more fluid and efficient user experience for writing and coding projects. The interface allows users to generate and edit specific sections of text or code directly within a workspace, making it easier to collaborate with the AI and make precise changes without regenerating the entire document.

Why is Google bringing ads to AI Overviews in search results?

Google is bringing ads to AI Overviews in search results to monetize the AI-generated summaries, which are more expensive to produce than traditional search results. This move helps Google recover the costs associated with AI inference and maintain their search business, which is primarily funded by advertising.

Shownotes Transcript

欢迎来到A5的未来剧集。让我们深入探讨小而美好的事物。人工智能是热点,数据永不眠。这就是我们Movie Gen。让我们改变游戏规则,大胆尝试。上周的人工智能,我们正在深入剖析。

大家好,欢迎收听《上周人工智能》播客,在这里您可以听到我们聊聊人工智能领域正在发生的事情。像往常一样,在本集中,我们将总结和讨论上周一些最有趣的人工智能新闻。和以往一样,我会提到您可以访问lastweekin.ai,查看我们在本集中未涵盖的内容,以及本集中所有新闻故事的链接。

我是你们的其中一位主持人,Andrey Karenkov。我的背景是在斯坦福大学学习人工智能,现在从事生成式人工智能的工作。像各位听众所知,Jeremy仍然处于陪产假中。所以我们又请到了一位客座主持人,实际上是一位回归的客座主持人,我会让他自己介绍一下。

大家好。我是Gavin Purcell。我是“AI for Humans”播客节目的两位主持人之一。我们的播客和YouTube节目专注于为更主流的娱乐受众解释人工智能,但我们也会进行很多有趣的创意实验。我和我的搭档Kevin Prayer已经做了大约一年半了。所以我想,Andre,我们几乎是专家了。我们正在努力。我们正在努力。

是的,我认为是这样。绝对是人工智能趋势领域的专家,尤其是在研究和技术之外,大概吧。还有创意方面。我认为这是我和Kevin讨论很多的事情,我们的共同点是,如果你对创意感兴趣,我们都来自创意背景。我在电视行业工作了很长时间。Kevin也做过很多电视节目。所以我们对创意工具进行了很多奇怪的实验,并试图向人们展示如何在有趣的方式中使用它们。

是的,没错。你的背景也是创意和娱乐。我想说,可能与这个播客相比,它肯定更娱乐一些。我相信我会听。我听这个播客是为了了解技术细节,有时我会在我们的节目中重新整合它。所以它们都有各自的用例。是的,但我也是播客的粉丝。我喜欢人工智能客座主持人和小实验。所以对于任何听众来说,如果这听起来很有吸引力,请务必查看一下。

如果您想了解更多关于我们节目的信息,请访问AIforHumans.show。这是我们的网站。您可以在那里找到YouTube和播客的所有链接。

是的,或者,您可以去YouTube,大概搜索一下,找到很多很酷的片段。是的。在我们进入新闻之前,你想回应一些评论吗?我们在YouTube上收到了一条很酷的更正,这总是好的。将秘密信息隐藏在显眼之处是隐写术,而不是超声波检查,一位密码学家如是说。

我以前不知道。这很有趣。另一个评论是关于

我们按时回归,听起来不再像时间扭曲了。希望我们会按时进行。让我们看看我们是否能做到。还有来自Extant Pensus和Nerd Planet在Apple Podcasts上的几条不错的评论。我总是觉得Apple Podcasts上的这些名字很有趣。

所以感谢所有评论和反馈。非常感谢。请随时访问YouTube、我们的Substack等等。

说到这里,让我们进入新闻。本周对您来说,Gavin,是一个很棒的合作主持周,因为我们有很多与创意相关的东西,人们可以使用的工具,而不是那些有时是焦点的更技术性的、开源的东西。你从工具和应用程序开始。

我认为是本周最大的新闻,至少对我来说是这样,Meta宣布了MovieGen,一款人工智能驱动的视频生成器。我认为这几乎就是Meta的Sora。它实际上不仅仅是一个视频生成器。他们发表的论文名为MovieGen X。

媒体基础模型的演员阵容,一个很可爱的标题。因此,除了生成视频之外,它还可以进行视频编辑。它可以以某种方式修改视频,例如交换对象等等。他们还有一个不同的模型来为视频剪辑生成音频。

他们有很多关于如何使用它的例子。我们可以深入了解一下细节。因此,该模型可以生成每秒16帧的16秒视频。他们将其与……

所有当前的模型进行比较,Runway Gen 3、Sora、Kling 1.5、Luma Labs,它远远超过了它们。我会尝试在我们的谈话中编辑一些片段,看起来非常好。所以我很想知道你的想法,Gavin。看起来真的很好。

我认为它真的很棒。但就像Sora一样,它还不能试用。我认为这对于Sora和它来说都是一个非常重要的方面,因为我花了很多时间使用这些工具,Runway Gen 3和Specific,也使用了Luma和Kling和Minimax,Kling和Minimax都是中国模型。而且

是的,它看起来很棒。我想说的一件事是,这与Sora所展示的以及迄今为止任何视频模型所展示的不同之处在于其着色功能。他们在这里展示的着色功能对于使用AI视频的用例来说是真正具有变革意义的。最酷的片段之一是他们展示了一个人在沙漠景观中奔跑的场景。

他们可以改变他,或者他们可以改变他周围的景观。这是目前AI视频中非常困难的事情,因为它非常像老虎机机制,你就像,好吧,让我们看看我们会得到什么。即使是图像到视频,你也不确定你会得到什么。

如果你能够更好地控制这一点,那就太好了。我认为他们目前展示的例子,在他们博客文章的顶部,有一个令人惊叹的,几乎像Moodang河马宝宝在水中游泳的场景,你可以在这里展示,这真的很酷。关于这一点,我感兴趣的是,我想知道你的想法是什么,就像Runway自己也谈到了这一点。Soras也谈到了这一点。我认为Metagen也正在讨论这一点。对不起,MovieGen也正在讨论这一点。

是关于AI视频作为世界模拟器,而不仅仅是视频模拟器这个想法,对吧?我认为有很多话要说,这可能会稍微深入到技术方面,但是,与其说大型语言模型在单词上进行训练,不如说我们很快就会在图像和视频上进行训练,但我们已经在图像和视频上进行训练了,而是像在现实世界和现实世界的样子以及物理学是如何运作的

可能会创造一个更大、更有趣的模型。因此,这些高端电影生成模型感觉像是朝着这个方向迈出的一步,这对于视频游戏玩家来说,圣杯就是你进入一个环境并说,我想玩X、Y或Z,并且我希望它看起来像这样。这是一个非常酷的用例。现在,它可能需要地球一半的资源来生成那个视频游戏。我知道这一点。

我认为这是朝着下一个方向迈出的一个非常有趣的步骤。我认为我和Kevin在节目中经常谈论的另一件事,关于娱乐行业,但实际上是关于大型的,有很多被称为AI永不使用的人,对吧?那些永远不想使用AI的人。我认为我们总是试图向这些人,以及那些可能对AI更感兴趣的人发送一条信息,那就是,你知道,这不会减慢速度。所以在很多方面,你最好了解并理解

开放地使用这些工具,因为情况只会越来越疯狂,这是我们的结论。这说得通。是的,正如你所说,值得指出的是,首先,这不是实时的。生成视频需要很长时间,就像Sora一样。因此,与Runway、Gen 3和Luma以及这些实际工具的比较并不完全公平。

考虑到它们实际上是用来使用的。事实上,没有发布的部分原因是他们已经声明现在还为时过早,速度太慢等等。这更像是一个预览。我真的很想知道Sora的情况,对吧?因为Sora是我们已经知道存在一段时间的东西。据我从背景研究中了解,它在OpenAI内部可能已经存在了一年左右了。

我很惊讶它还没有以某种形式发布,因为这对我来说有点令人震惊。现在,他们可能会说,我们已经烧掉了运行01的服务器了。所以我们现在不能发布视频模型。但我预计Sora基于Sam的新船心态,他正在发布很多东西。我预计Sora会在今年大选后发布,在今年年底之前,因为我认为OpenAI不想让人觉得他们落后了。我还认为,我知道你可能也在关注这个故事,但是,

从我们所看到的情况来看,Sora也有一个图像模型,对吧?所以这可能是一种简单的方法来更新Dali,使其成为Dali 4,或者你只需将其作为Sora发布。我认为这很快就会到来。这感觉有点遥远,但这再次表明,Meta正在投入如此多的资金,并且正在做很多事情,他们将成为一个重要的参与者,并且

你知道,同样,Lama 4并不遥远。你必须想象一下,一个如此优秀的开源模型的规模将是一个改变游戏规则的东西。没错。关于这个开源方面,有人提出疑问,我们是否会像Lama模型一样获得这个模型的权重?到目前为止还没有权重,也没有关于公开发布的真正承诺,这我不会

我并不感到惊讶。例如,这实际上是谷歌或其他竞争对手所不具备的东西,而不是大型语言模型。因此,为了获得竞争优势,这肯定是你可能想要保密而不与所有人分享的东西。

关于这一点的最后一点。我认为有趣的是,这非常符合扎克伯格对他们图像模型的讨论,其中他们强调的一件事是,你可以拍摄自己的照片并将其放入视频剪辑中。而且,你知道,我们已经看到很多可以做到这一点的开源东西了。我们已经看到了很多其他的工具,比如face fusion或其他存在于开源方面的东西。但是

我认为这是Meta想要做的事情的一个重要方面。我认为Meta真正想要做的是在他们的应用程序中提供这些工具,比如Instagram或WhatsApp或Facebook,等等。

我认为这方面的原因是,我对扎克伯格的理论是,这与其说是关于处于绝对领先地位,不如说是关于削弱其他所有人,并让人们使用Facebook应用程序,即Meta应用程序。所以我认为对他来说,这是一个另一个入门工具,对吧?如果你能得到你祖母在

在300中传播的病毒视频,比如,你知道,举起她的剑。这是一件非常好的事情。现在将是确切的300,因为这是一部拥有版权的电影,但你可以把她变成一个希腊士兵,并把某人从悬崖上踢下去。好吧,你知道,这是一个有趣的问题,我们是否使用了任何受版权保护的数据?他们确实表示他们已经对公共和许可的数据进行了训练。所以你可能不能让自己成为钢铁侠,大概吧,但谁知道呢?也许吧,但是,

你必须使用中国模型才能做到这一点。不幸的是,中国模型对此没有任何问题。非常正确。是的,是的。我认为这是一个非常好的观点。事实上,我在他们的博客文章中注意到,这篇文章很长,我认为如果你想了解所有细节,它有90页,可下载的版本,这太疯狂了。顺便说一下,这篇论文有60页的内容,30页的优惠。不是真的,那里很慌张。是的,是的,是的。

一篇非常详细的论文,我认为这对于社区的研究方面以及开源方面来说都非常令人兴奋。这里实际上有很多技术创新正在进行,这很有趣。关于将其集成到工具中,我发现他们在博客文章中以这句话结尾很有趣,

想象一下,制作一个关于一天生活的视频动画,在Reels上分享,并使用文本提示进行编辑,或者为朋友制作一个定制的动画生日贺卡,并通过WhatsApp发送给他。

是的,就是这样。他们直接告诉你,他们想要拥有这个。他们正在消灭JibJab,Andre。他们正在消灭JibJab。他们正在做的事情。你还记得JibJab吗?你知道那是什么吗?我不知道。对于那些记得的观众来说,JibJab是一个旧的应用程序,你基本上会替换,你会把你的头放在这些跳舞的小东西上。最初是精灵,然后是一堆其他的东西。所以这是一种创建可共享材料的简单方法,我认为这确实是Meta的看家本领。

对。对我来说,这很有趣。上周,我们报道了Vio,谷歌的……他们会在YouTube上,对吧?是的,他们会在YouTube上。Snap也在这样做。所以这似乎是所有这些创作工具、创意工具的另一个标准策略,添加这个。据推测,TikTok很快也会有自己的东西,似乎是这样。

我认为我们稍后会谈到Pika,这也是一个非常有趣的例子。接下来,我们有一个关于OpenAI的故事,这次不太实用,更多的是针对开发人员。OpenAI实际上举办了一个开发者日,他们介绍了一系列与软件工程师相关的开发成果。具体来说,最令人兴奋的部分是一个实时API,你可以在他们的应用程序中拥有近乎实时的语音到语音体验。

大概在某种程度上类似于我们已经使用4.0所做的事情,能够实时生成音频。现在你可以实时修改语音。除此之外,他们还宣布了一系列好处。我们不需要详细介绍,但他们正在减少

降低一些成本。他们正在引入视觉微调,这很重要,因为你可以微调与图像相关的方面,顺便说一下,这对于他们的文本模型来说已经是这样了。如果你在一家公司,拥有你自己的数据,拥有你自己的用例,你可以付费修改ChatGPT,使其定制到你的用例。还有一些其他的东西,但我认为这里的重点是这个

语音到语音服务。是的,我的意思是,实时语音API,我们深入研究了这一点,因为实际上,Kevin和我正在使用语音内容开发一个实际的想法,我们现在将保留这个想法,但我对此非常兴奋。所以这非常令人兴奋,主要是因为它似乎是先进语音的开端,至少是目前世界上最先进的语音。但是

关于这一点,有趣的是能够将其实现到现有的应用程序或将使用它的新应用程序中。目前,它非常昂贵。我认为出现的一件事是,它大约是四分之一……我不记得数字是多少,但定期使用它对于普通的消费者应用程序来说非常昂贵。但是……

正如我们所知,随着时间的推移,这些东西会变得越来越便宜。我认为一年后,能够以极低的成本进行语音到语音转换而无需暂停。如果你使用过OpenAI高级语音应用程序,它真正的好处在于它在进行的过程中一直在倾听,并且会立即回应你。这确实感觉有点神奇。我认为我个人的理论是,我认为这只会朝着这个方向发展,那就是

语音将成为每个人的主要输入,对吧?这意味着,到目前为止,我们习惯于将语音用于Siri和Alexa,但仅用于最基本的事情。现在语音可以……

使用Whisper或任何这些工具,它可以准确地转录你所说的内容,因此它可以准确地获取你想要的内容。然后,如果这种互动发生,并且再次回到代理在人工智能世界中变得真实的想法,如果你可以对代理说,嘿,你能给这个人写一封关于这个的电子邮件吗?它可以做到这一点,然后你可以浏览一下并说,好的,发送它。这是人工智能可以做到的一个真正令人着迷的伟大用例。我认为可能更广泛的事情是

我认为这将以一种非常奇怪的方式改变社会。我认为在十年后,我们将看到一个世界,每个人都将开始与这些AI交谈,并且他们将使它们人性化,因为你将花费时间与它们交谈。我认为这将加快AI是……

以一种奇怪的方式,不仅仅是一台电脑的想法。我还认为这将改变我们与面前设备互动的方式。当你将这些与Meta的新眼镜配对时,

我看到一个世界,当然,我知道很多人可能会说,你疯了,但我看到一个没有键盘的世界,对吧?就像那样,这是一个非常奇怪的世界,因为我们已经将键盘作为我们的输入设备很长时间了。想象一下,我的意思是,在我们手机上,我们已经习惯了在这个小东西上打字,每个人都认为我们永远不会这样做。但我看到一个世界,语音可能是我们未来与计算机互动的主要输入方式。这感觉就像我们正在为此奠定基础。是的。

我同意,当然,在某种程度上。我不确定键盘。作为一个程序员,这听起来有点激进。但是,如果你可以告诉你的AI做X、Y和Z,那么你可以稍微调整一下。这并不是最疯狂的事情。是的,我绝对同意语音将成为与AI互动的主要方式。即使是现在,在某种程度上,使用4.0,我们也在朝着这个方向发展。当然,在未来几年,

这在某些方面很有趣,比如我们的手机已经有一段时间可以很好地转录音频了。就像不用打字,你可以说一些更有效率的东西。就我个人而言,我还没有这样做。习惯并没有改变多少。

要使用它,但我认为随着我们获得这些智能眼镜,我们都开始在公共场合自言自语,这可能会成为一个更大的问题,我想,最奇怪的事情是,人们不再打电话了,我认为你会看到很多人在说话,但他们会和人工智能说话,这将是一件奇怪的事情。这将很有趣。是的,是的。

接下来,我们将从OpenAI转向一家初创公司,那就是Black Forest Labs,它发布了Flux 1.1 Pro和一个API。所以,是的,

提醒一下,Black Forest Labs是一家非常年轻的公司,由Stable Diffusion(开创性的文本到图像模型)的创建者创建。我认为,他们目前是图像生成模型的领导者,如果不是最好的话。当他们通过……

Grok on X让人们试用它时,我们已经看到了这一点。所以这里我们有AirModel Flux 1.1的下一个迭代。这些图像令人难以置信。现在,你知道,你仍然可以在这些图像中看到一些东西,这些东西会把它作为照片类型的图像,可以被视为真实图像的东西。现在很难找到任何东西了。

除了模型更新之外,我们还发布了一个付费API供开发者使用。因此,如果您正在创建自己的应用程序,而不是已经存在的应用程序,您可以使用API中的Flux。是的,我的意思是,Flux在第一次发布时就让我们大吃一惊。就像我被它震惊了一样。在我的脑海里,我认为它取代了Stable Diffusion的地位,因为Stable Diffusion已经衰落了。我们将看看James Cameron和那些家伙会用它做什么。但是,是的,

我始终从Flux中获得最佳结果。现在,Flux有趣的地方在于,我现在肯定有一些程序,你可以付费订阅,并且它已经集成到其中。但Flux是按次付费的。通常情况下,如果你在Fall或Replicator上使用它,所有这些不同的服务器系统,

太棒了。我认为事实是,我很高兴有另一家公司在推动图像建模向前发展。我最兴奋的事情是他们预告了一个视频模型,对吧?就像在他们发布Flex 1.0时预告了一个视频模型一样,对吧?

如果他们能够发布一个比Runway Gen 3模型更好的开源视频模型,我认为这是一种令人兴奋的事情,如果你看看已经存在的Runway和Lumas等等,拥有另一个推动它向前发展的人会让人感到兴奋。但这是一家很酷的公司。我认为他们正在做有趣的工作。再说一次,这是一件非常棒的事情,因为它为这些公司打开了大门。

它也为Grok提供动力,这种情况已经持续了一段时间,并允许你做一些在其他成像模型中无法做到的事情,如果你试图尝试创造性的想法,这总是很有趣的事情。我不知道你是否看过Doerr兄弟的作品,他们是制作特朗普、希拉里·克林顿和卡玛拉进入便利店视频的家伙,很多人讨厌这个视频,但是那个

那种东西,是一种艺术品,对吧?就像用开源模型创作的一件艺术品一样,因为没有一个封闭的模型允许你生成名人的图像。尽管Midjourney可以让你接近。Midjourney最奇怪的地方在于,它会让你几乎到达那里,但不是完全到达。Black Forest Labs和Flux肯定已经出来了。

自从成立以来,速度非常快。这不仅仅是更好,它实际上也快得多。所以他们说它提供了六倍于以往的生成速度,对于那些试图进行创意项目或只是玩弄它的人来说,这是一个改变游戏规则的东西。六倍的速度是……

是的,太疯狂了。看到他们发布与视频相关的产品肯定会非常令人兴奋。他们确实刚刚筹集资金并获得了一大笔资金。所以我们会感到惊讶。哦,他们做到了?他们筹集了多少钱?我对此很好奇。你知道吗?我忘了确切的数字,但大约是数千万美元。是的,是的。所以我的意思是,他们会在一段时间内存在。这很好。是的。

接下来,我们将从生成内容转向另一个与工具相关的新闻。微软正在为Copilot赋予语音和视觉功能,使其进行了迄今为止最大规模的重新设计。它添加了许多新功能。它具有虚拟新闻主播模式。它能够看到用户正在查看的内容,语音功能可进行自然对话,这与OpenAI的高级语音模式类似。

此重新设计已在移动网络和其专用的Windows应用程序中实施。

我不知道。说实话,我忘了Copilot是做什么的了。但是,虽然有很多,有很多Windows用户喜欢,顺便说一句,我前几天在百思买,他们正在大力推广他们的电脑,对吧?每个人都在大力推广他们的电脑。我要说的是,对我来说,这感觉就像,你知道,OpenAI,微软显然对OpenAI进行了巨额投资。我认为他们拥有大约40%,他们拥有OpenAI的49%股份。我不知道是利润还是公司所有权,但是他们,

在我看来,他们获得了OpenAI宣布然后放弃的工具,对吧?我的意思是,他们将所有OpenAI的东西都放入了Copilot。人们可能记得也可能不记得的一件事是,Mustafa Suleiman,Pi的联合创始人,现在正在领导微软的AI部门。我认为这是一大步。他让Copilot的设计更友好,更开放地做事情。我只是把Copilot看作……

一种进入很多这些东西的普通方式。当然,我不知道他们的目标受众是谁。我知道有一些报道说,Copilot,很多企业都尝试过使用它,但它并没有那么有用。我认为在某些情况下,这将对它有很大帮助,特别是顺便说一句,Apple intelligence仍然没有发布。我有一部新手机,我现在仍然无法使用。我想它最终会在本月底发布。但是

Copilot是一项非常强大的服务,因为它由OpenAI提供支持。事实上,甚至还有一个思维链。我不知道他们叫它什么,但他们发布了一个思维链,显然是某种形式的思维链被放入Copilot中。总的来说,我认为这对我来说是有意义的。就像微软拥有OpenAI的大部分股份一样。他们将在不同的品牌和微软世界下推出他们的产品。我认为人们可能会使用它。我认为这将吸引很多人。

我也这么认为,是的。也许是因为我使用的是Mac,很少使用Windows,所以我忘记了它,但我相信它在操作系统和你在微软中使用的任何东西中都非常突出。我同意,这似乎有点Pi那种面向消费者的影响,而且它看起来比ChatGPT更简洁,更易于使用。所以我认为他们也在试图与其他聊天机器人区分开来,那些聊天机器人只是一个文本框,你知道的。

我认为我真正想要的东西,因为我的衣橱就在这里。我有我的微软游戏电脑,我以前用它做过AI方面的事情,但我有一段时间没有把它拿下来了,只是因为我做的很多事情都在云端。但我希望他们能够做到,再说一次,这可能又回到了还无法做到这一点,因为你需要一个可以在你的方式上运行的代理。我希望它能够为我完成我的电脑上的事情。我甚至不必在互联网上做事情。如果它能做一些简单的事情,比如如果我能告诉它,你知道的,

去更新这个软件,甚至不是那样,比如批准这个软件,诸如此类的事情,甚至像,你知道的,删除这个文件。这对我来说将是一个巨大的好处。我知道在某个时候微软真的想进入这个领域,比如寻找方法让它变得有用,这感觉像是下一步。就像,好吧,很酷。我可以和它说话,我可以让它说不同的奇怪事情。但是现在用例并不那么强大。我认为在我们开始让它

拥有某种操纵文件或为我们做事的能力之前,它不会那么强大。是的,我完全同意。我认为下一步将是类似于,你知道的,在这个文件夹中,删除所有图像文件或通过删除这部分文本重命名每个文件,这是我不得不做的事情,你知道的,烦人的重复性任务。这很快就会成为人工智能。

最后一个故事,我认为你提到了Pika,现在我们正在报道他们的新闻。他们发布了Pika 1.5。所以提醒一下,Pika Labs是一个AI视频平台,与Luma和Runway Gen 3类似。在1.5版本中,他们专注于超现实主义。特别是,他们强调了超现实主义

Pika效果,这些是栩栩如生的真人和生物动作,复杂的摄像技术。我认为对我来说,最酷的部分是看到一些带有图像的视频

像物理现象一样的东西,有烟雾,我认为还有东西溶解,像液体一样。它非常流畅。我对此印象深刻。是的。所以我认为,所以这里有两件事正在发生。Pika发布了一个新模型,这很好。你总是希望看到这些AI视频公司向前推进,发布新模型。但是Pika一直落后于其他一些模型,对吧。在质量方面。我认为真正不同的是,

我认为Pika的一个聪明举动是他们略微转向了这些,我几乎称之为AI动画模板的东西。他们称之为Pika效果,大约有六个。这与他们在预告片视频开头所说的内容略有不同。他们正在谈论你可以操纵新的AI视频模型的方式。但是这些是,

你可以用东西做的特定动画类型。其中一个叫做膨胀。其中一个是融化。其中一个是蛋糕。所以你可以用蛋糕做东西。所以这个很酷的地方在于,你可以使用任何图像,它会给你类似的效果,它几乎知道效果是什么,在某种程度上就像一个视频劳拉,这很酷。而且,呃,

我认为Pika的聪明之处在于,这有点像Vigil流行的时候,对吧?如果你还记得Vigil,这家公司制作了小游艇在舞台上跳跃的东西,每个人都做了那些动画。如果你能找到一些对你来说会病毒式传播的东西,那是一个巨大的卖点。但是,再次回到元宇宙的东西,就像你让人们使用这种方式一样,对吧?这些AI视频模型中的一些正在寻求成为

电影制作人甚至AI电影制作人的高端工具,他们将花费所有时间制作一部两到五分钟的电影,或者在某些时候制作更长的电影,以制作一部真正引人入胜的视频。其他的则真正关注的是吸引那些会用他们的图像制作一些有趣的东西的休闲用户。而且

这感觉像是Pika前进的正确方向,因为在某种程度上,我认为Pika不会击败Lumas或Runway等公司。所以,你知道,它已经筹集了大量资金。我认为Pika筹集了大约7000万美元。这感觉像是对那些试图成为AI视频实际模型生成器的公司来说的一次融资。但是……

如果他们能够发展壮大,这可能是一个非常有趣的用例。我不知道它是否,对我来说感觉像是,我不知道这家公司从这里走向何方。也许有一个世界,他们可以把它变成某种东西,但是感觉像

这将是一条棘手的道路,但我真的很喜欢这些新的效果。我认为值得一试。任何人都可以免费使用它。这是最酷的部分。你需要大约半小时才能得到结果,因为免费生成的排队时间很长。但我认为它在pika.art,你可以免费尝试。我们玩得很开心。我们实际上为我们的节目制作了缩略图。而且,你知道,膨胀的东西真的很奇怪,因为它有两个脑袋。它让我们膨胀,然后把我们带到下面的一些奇怪的肉球里。

这真的很令人不安,但很有趣。是的,这是一个很好的观点。我认为就所有这些视频生成服务而言,从消费者的角度来看,你实际上能够把它变成一项业务似乎有点不太可能。当然,我认为我们知道的OpenAI已经……

与好莱坞人士会面。我认为他们没有发布Sora的部分原因是,从消费者的角度来看,它不会是一个真正的赚钱工具。是的,是的。所以是的,对于Pika来说,这个Pika效果的想法,也许更像过滤器一样的东西,对吧,人们已经使用了大量的东西,可能是一个聪明的策略。

好吧,而且就像你想的那样,好吧,像这样的公司,我不知道,也许不是字节跳动,但像Snapchat这样的公司会收购Pika。是的,当然。这是一件非常有用的事情,因为这样你就可以让这整个团队为你制作更多效果。我只是认为,

这是一件有趣的事情,因为我认为对于Sora甚至Runway,你可以看出他们实际上正在努力以某种方式向好莱坞推进,对吧?因为最坏的情况是,Runway和Sora都可以制作令人难以置信的无人机镜头,对吧?或者现在实际上可能接近电影中使用的建立镜头。他们可能还需要几年时间才能用这些东西制作完整的电影,但Pika感觉可能需要走这条路。没错,是的。我认为Runway尤其是在……

将自己打造成为一个,你知道的,它不仅仅是视频生成。Runway拥有一整套AI工具等等。是的,是的,没错。所以感觉上,这个领域需要一些差异化,而Runway无疑是试图成为创意专业人士领导者的公司。

进入应用程序和业务部分,我们从本周的另一个大新闻开始,这个新闻并不令人惊讶,但我认为拥有它很好。那就是OpenAI融资传奇的结束。我们一直在断断续续地讨论这个问题。我们在这里报道了很多传闻。

好吧,OpenAI现在已经完成了他们的风险投资轮融资,这是有史以来最大规模的风险投资轮融资。哦,是吗?我不知道。太棒了。是的,没错。所以他们筹集了66亿美元。

十亿美元来自各种投资者,这使他们的估值达到1570亿美元(资金后)。你知道,有很多投资者,正如你可能预期的那样,5Capital是之前的投资者。他们有很多重复出现的投资者,尽管这里有一些有趣的细节。据说,他们确实要求投资者不要投资其他竞争对手的AI公司。

我想这是有道理的,但对OpenAI来说也是一个要求,OpenAI确实面临着来自on FilePick和谷歌等公司的相当大的竞争。

但是,是的,尽管存在竞争,人们似乎仍然对OpenAI充满信心。是的。我一直在思考这个故事。我们上周也在我们的节目中讨论过它。有一两件事真正让我印象深刻,一是这一轮融资的规模很大。对。你无法想象像历史上几乎任何其他初创公司一样,在上市之前筹集如此巨额资金。对。

但是第二点,我也一直在思考这笔钱的用途,因为,你知道,OpenAI现在的一个著名之处是,它并没有盈利,对吧?就像它一样,它正在带来很多钱,而且它确实有很多钱进来,但它仍然在整体上亏损,对吧?就像它的成本高于它的利润一样。我认为我的想法是,好吧,你现在有65亿美元来做下一代的事情,对吧?

我一直在思考我们距离看到OpenAI的秘密武器还有多远,这意味着我们现在才看到01。据说传闻是,01是Ilya过去看到的让他感到害怕的东西。那几乎是一年前的事了,对吧?就像在11月份一样。对不起。是的。

所以我的问题是他们向投资者展示了什么,因为投资者会得到公开的披风,看看公司现在正在做什么。如果他们不知道发生了什么,他们不会向公司投入65亿美元。

显然,现在门后下一步将是一个重要的步骤。我可以想象,你知道,他们有……我不记得他的名字了,但那个作为新业务主管进入的人,布拉德什么的。我相信他们正在预测所有这些目前还不存在的软件的不同业务用例。因为没有其他方法可以在如此高的估值下开发它。所以……

我认为这表明OpenAI的下一步飞跃可能有多大。当然,我不是专家,但我认为,你让这么多人投入这么多钱的唯一方法是,你向他们展示了另一端会有大量的产出。对我来说,这就是这种感觉。是的,没错。我认为这是正确的看法。我的意思是,显然,他们今天正在消耗大量的现金。

这仅仅是因为员工。我认为我们目前根本没有盈利。目前还不清楚所有这些聊天机器人的利润率是多少。但即使除此之外,我认为我们仍然非常致力于构建AGI,对吧?这是他们的主要目标。这将涉及训练GPT-5。而且,你知道,GPT-4的成本大约为数亿美元。这些前沿模型,包括Llama 3,的成本大约为数亿美元。

数百万美元,而GPT-5的成本可能高达数十亿美元,这很疯狂,有趣的是,数十亿美元,他们没有得到那么多,你知道的,我的意思是,有趣的是,现在当然他们有微软在他们的后盾来帮助他们做事情,并且有一个故事说,微软正在帮助重启三里岛,他们将获得微软将试图为AI训练和数据中心调用的所有这些资源,但是

这让我担心的是,如果他们没有那种东西,下一代的训练已经完成,那么就会有很多钱被烧掉只是为了做到这一点。对。因为他们必须购买芯片。他们必须做所有这些事情。这就是为什么我认为GPT-5可能已经被烘焙好了。

而这项投资是一个承诺,这个投资是基于其结果的承诺,对吧?就像,我认为这可能是这种情况。是的,我也这么认为。它已经,你知道,我忘了,大约一年半或相当长一段时间没有GPT-4了,对吧?

对不起,01,他们的新命名方案太混乱了。但是是的,他们的推理模型肯定是一个相当大的飞跃。但是,我们仍然感觉没有GPT-5,他们也没有发布GPT-5。所以我想这必须是这个问题,他们有吗?他们没有吗?我认为他们肯定已经开始训练它了,可能还没有完成。

我想你需要数十亿美元来开发GPT-6。是的,我认为这可能是这种情况,至少GPT-5已经开始训练,如果没有,就像,没有完成。但是,就像,我认为下一个版本的……现在你说对了。是01吗?我们将会得到?它已经完成了,对吧?01,因为01预览版已经发布了。也许它会被称为02,就我们所知。或者有GPT-5加02。就像,我真的很希望我们能得到一些重要的事情。但感觉像

这次融资真正关乎的是它在那之后的发展方向。另一个问题是,在某个时候,这家公司,你知道的,1570亿美元的估值,这是有点商业化的,但是,

像这样的公司最终必须上市。顺便说一句,这可能对OpenAI有帮助,因为我认为在某种程度上,OpenAI可能有点像特斯拉,因为它具有很大的meme股票潜力。所以也许如果他们上市,它只会以一种对不同的公司来说更困难的方式大幅提高他们的估值。

当然,是的。他们拥有ChatGPT的品牌认知度,我认为对于散户投资者来说,他们知道这一点,所以我认为这种情况可能会发生。最后一个有趣的细节是,

对于融资,听起来有一个条款。如果OpenAI未能在一年的时间内重组为营利性组织,投资者可以收回资金。所以他们在这里真的承诺,我们将全力以赴成为营利性、正常的公司,你知道的,忘记这个非营利性业务吧。我的意思是,如果你要筹集这么多钱,你必须这样做,对吧?再说一次,你知道的,你可以争论说它应该是一个非营利组织,并且有很多相信这一点的人。但是,就像,

你不可能从人们那里获得这么多钱,然后说,好吧,猜猜看?我们可能仍然是一个非营利组织。你必须改变。你还记得OpenAI网站上最初的那张图片吗?那张图片谈到了它是一个非营利组织,而且它不会花费,你知道的,这只是一笔糟糕的投资。当你获得66.5亿美元时,情况不可能是这样,你必须至少向这些人承诺,你知道的,我不会知道,是两到五倍,如果不是更多的话,他们投资的钱。对。对。

接下来,我们有一个没有产生太多炒作但我觉得很有趣的故事。这个故事是谷歌正在为AI概述添加广告。他们将开始在某些谷歌搜索查询中提供的这些AI生成的摘要中显示广告。我们还将在一些摘要中添加指向相关网页的链接。

这是我们一直想知道的事情,也是一个谈话主题。进行这些类型的AI推理搜索的成本很高,远高于普通的谷歌搜索。所以你需要以某种方式支付它,对吧?所以我们一直在想,我们会得到广告吗?这将是你的商业模式吗?我们开始了。我们开始得到了。我认为也有……

我忘了这是否真的发布了,但我看到过关于这也会出现在必应上的信息。所以我不觉得奇怪,我想,这可能是你预期的,但仍然很有趣。

我想值得注意的是,没有什么东西是免费的。现在,如果你使用它,你很快就会开始看到广告出现,并被标记为赞助广告,与非赞助内容一起出现。是的,我的意思是,你必须意识到谷歌正在放弃他们搜索页面中最有价值的部分,用于这个AI。

他们正在制作的搜索段落,因为通常情况下,第一个结果是一个赞助广告,对吧?就像你可以搜索REI,你会在顶部看到一个电子邮件,你会看到一个Yeti广告,对吧?就像露营装备一样

我认为这对我来说只有意义。另一件事是后续公司Perplexity,它是一个AI直接搜索引擎,它也宣布他们有一个商业模式计划,当你回复一个问题时,当你回复一个……所以你输入你的搜索查询,你得到你的答案,然后当你回复时,他们将允许赞助商回复你,这是一种看待这个问题的有趣方法,因为你已经表明了意图。所以想象一下,因为你正在搜索……

什么牌子的冰盒最适合野营?然后它会显示这三款冰盒。如果你选择Yeti冰盒,你可以说,“告诉我更多关于Yeti冰盒的信息”。Yeti或REI也可以说,“你想看看REI的折扣吗?”这感觉就像……

我们将会看到这些东西的来来往往。不幸的是,或者说幸运的是,长期以来,正是这些资金为互联网的整体发展买单,并将这些公司发展成为,在某些情况下,万亿美元的公司。而谷歌尤其如此,呃,

正在努力弄清楚如何让这些AI产品赚钱。到目前为止,我认为他们一直在打防御战,试图打破ChatGPT占据大量搜索份额的事实。我不知道你怎么样,但我现在在ChatGPT上搜索的时间比我想象的要多得多。我实际上会问一些不太明确的问题。

特别是与查找产品相关的。我经常在ChatGPT中提问,这可能至少占我搜索查询的一半。我认为这只是他们现在可以将大量资金投入到这个项目中的一种获利方式。我仍然不知道长期来看如何。我认为谷歌的搜索业务有点混乱,因为我认为会有很多不同的人参与进来。他们将尝试以不同的方式进行操作。谷歌只需要找到一种方法来至少保持住……

至少一半的份额,对吧?如果不是更多的话,因为谷歌的大部分业务都是搜索广告。没错,是的。他们确实需要找到一种方法来维持下去,

我认为他们的这种AI概述功能与你从其他人那里看到的相当类似,它提供了对各种网页的摘要。早期它有点傻,还犯了一些可笑的错误,但我相信随着时间的推移,他们已经改进了一些。对我来说,有趣的问题是,他们是否会发布某种……

针对创意专业人士的优化搜索,例如,这将花费更多来与Perplexity竞争,对吧?因为对于Perplexity来说,他们确实有一个更昂贵的模型和搜索层级。你必须每月支付20美元才能进行更深入的探索。当然,我可以预见很多人会支付这个订阅费用。是的。

能够将其用作工具。我的意思是,在这一点上,即使是像,我也会为谷歌搜索产品付费,可能吧。我的意思是,我已经付了钱。事实上,我不得不,我现在有这么多愚蠢的AI费用从我的美国运通卡上扣除。我必须取消一些,但就像我每月支付20美元或其他费用给谷歌用于云存储一样。对。就像某种形式一样,我希望这就像YouTube Premium一样,我不必看广告,或者我得到了一个更专注的谷歌搜索工具。我认为

这再次回到了搜索,你知道,订阅收入与搜索收入。看看会很有趣。我认为谷歌的另一个重要问题是,如果你听过The Verge的Nilay Patel,他在这方面非常出色,但整个互联网正在发生变化,它过去是基于搜索和SEO的。现在它将基于这些AI搜索。这将从根本上改变互联网的业务。你知道,过去是关于如何登上搜索页面顶部的问题。现在将更多地关注……

A,如何在这些AI搜索引擎中或如何被AI呈现出来?但同时也像,你如何让人们直接访问你,而不是试图访问谷歌页面,我认为这将是互联网整体的一个奇怪的过渡点。嗯哼。

进入闪电轮,其中包含一些较短的故事。我们从一个趋势开始。Anthropic聘请了另一位与OpenAI相关的员工,这次是一位联合创始人,一位鲜为人知的联合创始人,Dirk Higdon。

Kingma,他从一开始就在那里,确实在2018年离开了OpenAI,加入了谷歌。所以实际上,这不是像你看到的那样有人离开OpenAI的情况。但无论如何,是的,Anthropic现在有很多前OpenAI员工。如果没有什么其他的话,我相信这有助于他们成为强大竞争对手的论点。

是的,我的意思是,Dropbox也有drops即将到来,我相信。如果没有什么的话,Opus 3.5肯定会在某个时候准备好发货。我不知道他们在等什么,但Sonnet和Opus 4也可能即将到来。当你添加3.5级别时,你知道某个时候也会有4到来。所以我期待看到他们从这里走向何方。

接下来是我们关于OpenAI的故事,一如既往,我们有很多这样的故事。我喜欢这篇文章的标题。OpenAI最新的作品正在让员工们震惊、担忧和恐惧。那就是他们的新标志。据说,在最近的一次公司全体会议上,他们展示了这个新的潜在标志,它被描述为一个大的黑色方块。

O或环,基本上就像一个零或字母O。这与他们,我认为现在已经相当具有标志性的,六边形几何形状的标志有所不同,多年来我见过很多次。是的。如果他们真的做出这个改变,我会非常沮丧,因为这听起来更无聊了。好吧,人工智能的可怕之处难道不是由一个巨大的黑点来帮助的吗?它就像一个物体……

放大和缩小当它说话时,我能想象到的最可怕的人工智能版本就是一个黑色的东西,它就像……它几乎就像2001年的那种氛围,对吧?我认为……我希望这不是真正的标志,因为它对我来说并不引人注目,它并不乐观,如果你了解建筑学的话,它感觉非常野兽派……

我不喜欢野兽派建筑。我觉得它非常平淡,而且有点冷冰冰的。我希望他们不会发布这个。没错。听起来很冷,非常不人道。是的,没错。你认为我们会希望将其更推向人性化的一面,而不是非人性化的一面。但是,也许Sam Hart只是在与我们竞争ASI,我们都将成为被插入的电池。也许他已经与人工智能达成了协议。

是的,谁知道呢?接下来,离开OpenAI,下一个故事是Waymo正在根据一项新的多年协议,向Robotaxi车队添加现代电动汽车。所以这是关于现代IONIQ 5电动汽车,你可以说这是一种相当昂贵的电动汽车系列,可以与特斯拉之类的汽车相媲美。

他们说,他们称之为Waymo Driver的Waymo第六代自动驾驶技术将被集成到大量IONIQ 5电动汽车中,以支持他们不断发展的Robotaxi业务。

对我个人来说,非常令人兴奋。Waymo似乎在其将硬件推向市场的能力方面受到了一些限制。如果你现在去旧金山,现在已经有一段时间了,旧金山的任何人都可以使用Waymo。候补名单已经结束,现在乘坐Waymo需要25分钟。太疯狂了。哦,真的吗?哦,哇。所以我实际上在洛杉矶。我已经获得了批准。我还没有这样做,但我在这里参加了它的beta测试。我可能很快就会尝试一下。但是

当然,现在它们都是捷豹车,这是一种非常昂贵的汽车。我还认为,Waymo与特斯拉等公司相比,有趣的一点是,你必须安装在汽车上的硬件,激光雷达比仅仅运送汽车并希望它能工作要困难得多。但我认为……

我越了解Waymo,再说一次,我还没有坐过,但我已经了解了很多关于它的信息。我已经痴迷于无人驾驶汽车大约10到15年了,因为我认为它会比现在来得更快,因为埃隆很久以前就承诺过。但我认为这在某些方面与人工智能一样具有变革性,因为我认为在不久的将来,如果这能奏效,它似乎现在确实如此……

10到15年后,你就不需要买车了,对吧?我认为这对美国文化来说是一个巨大的变化。现在,人们还会买车吗?当然会,对吧?就像会有人为了娱乐或仅仅因为Waymo不为他们提供服务而购买汽车一样。但是当你想到城市驾驶……

以及在城市内四处走动,我认为这可能会比拥有汽车节省人们的钱。这感觉就像在他们可以将技术融入其中的更多汽车上迈出了一大步,对我来说很有意义。我认为最终,这的关键以及Cruise一直如此有趣的原因在于,Cruise试图承诺你可以将他们的软件和硬件安装到现有的汽车上,对吧?

在一个世界里,比如,赫兹在一年结束时完成了他们的租赁车队,因为他们总是更换他们的租赁车队。想象一下,Waymo只是购买这些汽车的世界,对吧?它们便宜得多。你可以把它们全部装备起来。然后突然间,你又有了10万辆Waymo。这感觉是我们即将达到的目标。我认为这感觉是在正确的方向上迈出了一大步。是的。

是的,我完全同意。这在早期就被讨论过,比如,多年前,当人们仍然对自动驾驶技术感到兴奋时,关于私人汽车所有权终结的想法。是的。一旦你可以打电话,基本上只需很少的钱,就像你总是可以叫Uber,而且不会很贵,它将是自动驾驶的Uber,对吧?

也许你不需要买车。就我个人而言,我会觉得这非常令人兴奋。但是是的,我的意思是,为什么不呢,对吧?我的意思是,再说一次,我和我的妻子谈过,我们现在住在洛杉矶,但是当我大女儿即将高中毕业时,我认为我们会回到纽约,那是我们喜欢居住的地方。纽约最令人惊奇的事情之一是你不需要汽车,对吧?真的不需要。你可以四处走动,到达很多地方,这节省了巨大的麻烦和成本,而且也很麻烦。我认为在这个大多数主要大都市城市都发生这种情况的世界里,我认为这是可能的,我认为我们正在接近。

是的。接下来,我们必须有一个关于芯片和硬件的故事。所以这个故事是关于Cerebrus的,我们已经多次报道过它。他们有自己一种很酷的芯片设计,这与标准芯片大相径庭。他们正在申请IPO。所以他们发布了这份投资者招股说明书。

他们将尝试进行首次公开募股,这是一种让投资者在公开市场上购买其股票的方式,也是他们可以筹集大量资金的方式。

所以我们没有看到很多AI公司保持私有状态,当然,OpenAI获得了大量投资。Cerebrus几乎可以肯定。他们已经存在很长时间了。他们已经进行了多轮融资。所以我认为他们尝试通过IPO获得更多资金是有道理的。

是的,我的意思是,我认为很多这些公司都会进行IPO。我的意思是,Cerebrus至少是一家芯片公司,所以他们可以展示规模,特别是如果AI继续发展的话。看看Grok,GROQ,那家公司也是如此。我认为会有很多这些基于硬件的公司做得不错。但我认为困难的部分是,任何这些公司都在与我们见过的最大的800磅大猩猩竞争,那就是英伟达。而且,

我对所有这些硬件公司的感觉是,好吧,你能展示……我知道Cerebrus和Grok都展示了比英伟达显著的优势,特别是对于AI来说,但是……

你正在与全球资本化程度最高的公司之一竞争,该公司拥有数千名员工与你对抗。对我来说,这将是一项棘手的投资,因为我不知道在IPO层面你是否能看到这样的事情完全成功。但再说一次,我认为更多这样的硬件公司将达到这个阶段。最后……

一点戏剧性,我们总是喜欢在节目中加入一些更戏剧化、可能更有趣的东西。这个故事是关于一家初创公司发生的一件有点愚蠢的事情。标题是为什么Y Combinator在支持一家它承认基本上克隆了另一家AI初创公司的AI初创公司后受到批评。

我们很早就谈到了Cursor。这是一个用于编码的界面。现在我们有了关于……

pair ai的故事,它也是一个用于AI编码的界面,他们实际上对一个名为continue的开源界面进行了分叉,其中不好的部分是他们替换了这个特定界面应该保留的开源许可证,你不能更改许可证……

他们只是用一个看起来像或据说是一个AI生成的许可证替换了它。他们只是用ChatGPT复制粘贴了所有内容。当然,他们受到了很多批评。他们确实承认了这一点。顺便说一句,他们确实表示他们对该项目进行了改进,所以他们并没有假装这是他们的。但无论如何,对于一家软件公司来说,这是一件相当愚蠢的事情……

是的,他们肯定受到了很多审查。听着,在这个世界里,人们非常迅速地转向“你是骗子”的心态,我不知道你是否关注过。就像那个Reflection 70B的故事,这显然是一件大事。

我认为这个领域很多人只是想创造一些有趣和酷炫的东西。克隆软件显然看起来很烦人。我认为更重要的事情是,如果这些人这样做,而他们不是Y Combinator的公司,那可能不会那么重要,因为Y Combinator拥有这种历史。它拥有Sam运营它,以及Paul和所有其他开始这家公司的家伙的那种分量,Airbnb就是从这里诞生的,还有所有其他类似的事情。

我认为总的来说,这些故事……

很快就会被夸大。但与此同时,对于这些人来说,这样做以及他们所做的那样做是有点愚蠢的。我认为这方面的一部分原因是每个人都在努力尽可能快地完成这些事情,因为他们希望能够对这个世界产生影响。在这个领域有很多人都相信他们拥有下一个伟大的事物,他们希望在其他人之前做到这一点。有时我认为最好是,嘿,花点时间考虑一下……

一个真正独特、有趣的实现方式,而不是我们如何才能制作别人已经制作的东西,并以开源的方式进行。虽然我也要说,开源Cursor总体上并不是一个坏主意。拥有这样的东西是件好事,但它的业务方面可能有所不同。没错。你说的对,这不是什么大不了的事。我们不应该认为这表明他们是骗子。事实上,

更重要的一点是这如何反映在Y Combinator上。对于我们很多听众来说,你可能知道Hacker News是一个程序员讨论这类事情的网站。当然,在那里有一些讨论和批评,认为Y Combinator的流程、尽职调查等方面可能有所下降。

但现在我们正在深入探讨硅谷的内部情况。我要说的一件事是,Y Combinator就像,我们称之为创业的哈佛大学,对吧?所以,每当哈佛大学或处于那个级别的人犯错时,就会有成千上万的人跳出来说话,你知道,开始称之为……

代际的事情过时了,或者以某种方式明显不道德,因为它会引起人们的注意。我认为Y Combinator仍然是一家引人入胜的公司。我认为他们做的事情很有趣。我认为他们为初创公司提供了一个非常有趣的杠杆来起步。这感觉有点像,它叫什么?有点酸葡萄心理,但也可以理解。

接下来是研究和进展,我们有一些论文。第一篇论文的标题是,《循环神经网络真的是我们所需要的一切吗?》。如果你不知道的话,循环神经网络是人们在Transformer出现之前使用的东西,你基本上有一个输入和输出循环,你做的是一种直观的事情,那就是你一次接受一个输入,然后遍历你的输入……

并进行处理。这曾经是我们处理文本的方式,在Transformer出现之前。但由于各种原因,它已经不受欢迎了。基本上,由于其工作方式,它训练起来比较困难,而且难以扩展和并行化。在这篇由Yoshio Bengio共同撰写的论文中,他是一位在人工智能领域非常有影响力的人物,他们采用了循环神经网络的传统形式,LSTM和GRU……

并对其进行了一些简化,删除了一些需要低效训练的内容,从而产生了循环神经网络的最小版本,他们说这实际上可能有效,可能与Transformer以及Mamba等东西具有可比性。这就是为什么他们会问循环神经网络是否已经足够了这个问题。哇。

现在,他们没有回答这个问题,因为他们没有扩展规模并进行大规模比较,这就是我们现在所关心的。他们只在相对较小的数据集上获得了初步结果,结果表明,对于这组小型数据,似乎存在相当可比且良好的趋势。

所以最终,他们确实证明了所提问题的合理性。他们并没有真正回答这个问题。

作为一个非技术人员,让我问一个问题,我很抱歉听众们。我知道听众中绝大多数人比我更懂技术。你知道,他们总是谈论LLM可以扩展到一定程度,但之后就会下降。但LLM本身并不是AGI的答案的想法。这个想法是否像一种并行的途径,可以与LLM以某种方式相交,从而形成一个更大的模型?

是的,我认为就是这样。这在幕后一直是一种真正的趋势,人们一直在探索LLM传统技术的替代方案。因为当你扩展规模时,就会出现这种著名的二次方问题。你的输入越长,成本就会以这种指数级的方式增加。对。

有一些方法可以使其线性化,对于每个额外的输入,你支付相同的价格,而不是具有这种平方幂效应。这基本上是另一种方法,我们已经看到了状态空间模型、Mamba,我们已经看到了XLSTM,现在我们有了主要的LSTM和主要的GRU。所以这已经持续了一段时间了,我们仍然没有看到……

任何这些模型真正变得庞大,是的,成为一个改变游戏规则的东西,但当然这似乎可能是让我们转向这些万亿美元模型或其他东西的一部分,明白了,接下来我们有Mio,Mio,我不确定它是什么,一个关于多模态标记的多模态基础模型,是标记还是标记,哪个是对的,应该是标记,我知道有时我会说错话,但是呃……

多模态,我们都知道这是今年的大趋势。像GPT-4.0这样的东西,你可以输入多种模式,图像、文本、音频,并输出这些模式。

而多模态标记,这意味着有不同的方法可以做到这一点。你可以训练你的模型拥有不同的编码器,以便分别处理图像和文本,并在中间将它们组合起来。或者你可以进行这种训练,你只是交错排列。你有图像标记,你有文本标记,你有音频标记,所有这些都是你输入的一部分。你可以根据自己的意愿进行混合和匹配,这使得你的模型更加灵活。

所以这就是这里的重点。他们正在发布或说他们将发布一个开源的这些多模态大型语言模型之一,它将能够接收各种输入模式,然后也输出各种模式,特别是这里……

对于模式。我认为我们没有一个非常强大的开源多模态模型。我们已经看到了一些这方面的努力,但没有像Llama这样的模型。正如我们上周报道的那样,Llama 3.2令人兴奋的事情之一是他们添加了视觉作为输入……

所以这超出了这一点。这将进入文本、图像、视频,这将非常令人兴奋。是的,我的意思是,Llama眼镜的事情,我一直都在关注它,因为……

我认为现在所有这些东西都非常依赖摩擦来获得访问权限。但是一旦它变成你一直戴着的东西,或者你戴在耳朵上的东西,这两者之一,感觉就像它为更多用例打开了大门,而不是不得不,比如,对于Meta的东西,即使是多模态的,我也计划花一些时间。但要访问它,你必须去Meta的聊天,这……

这就像一件需要了解的事情。我认为这些模型的多模态背景会越来越好。然后突然间,我们就会有一副眼镜,就像,哦,这就是它。就像,在未来两三年内它会变得更好。然后我们就会有一副眼镜,这将是一种令人耳目一新的体验。

还有一个故事。我们从苹果那里得到了一些东西,看到这些东西总是很有趣的。根据VentureBeat的这篇文章标题,他们正在发布DepthPro,这是一个改写3D视觉规则的AI模型。所以这个模型DepthPro可以从单个2D图像生成详细的3D深度图,如果你想技术一点的话,就是眼球深度估计……

这显然是在精度方面的一个飞跃。它们具有非常高分辨率的深度图,速度很快,只需0.03秒。所以你必须想象这是从他们在他们的视觉耳机上的工作中产生的。这对于AR和VR来说至关重要,能够估计深度,也就是周围物体有多远。

他们说这在各种环境下都能工作。所以你不需要在各种环境中训练,重新训练模型。它只会工作。

所以这实际上是一项非常具有挑战性的任务,并且几十年来一直是计算机视觉中一项重要的任务,能够估计视觉。过去你需要两个摄像头,你做立体视觉,就像我们一样。但如今,由于机器学习,你可以只使用一个摄像头,并能够很好地估计深度。

所以,是的,看到苹果改进其机器学习,以及使用其产品所需的东西来进行尖端工作的能力,这很酷。

这也让我想到了回到自动驾驶汽车的想法。所以很多东西都是基于视觉,对吧?或者激光雷达,或者试图找到一种方法来推断物体的位置深度。我只是觉得这项技术现在会发展得如此之快,因为我们正在做所有这些事情。在这里,它也会在那里。对现实世界的建模似乎是现在真正的一大步。

这感觉就像进入的一种方式。有很多含义需要深入探讨,比如对于机器人。这是另一个试图获得智能机器人的大趋势。他们需要这种东西。这是开源的。顺便说一句,代码和预训练模型将在GitHub上提供。顺便说一句,我很想知道,我相信这肯定在苹果某个人的大脑里,如果不是写在纸上的话,那就是他们的人形机器人。因为对我来说……

尽管Vision Pro和眼镜将是苹果要做的事情,这很明显。我认为眼镜可能……现在他们已经看到了Meta的产品。他们可能正在推进。并且有一种真正的想法,也许Meta发布了这些东西,以便在他们……之前领先于苹果,因为Meta说它还需要三年时间,或者可能这么久。但想象一下苹果的人形机器人项目,它将在未来五年内被锁在六把不同的锁下的研究室里。但是……

他们拥有海量数据,这些数据随时可能公布,但他们总是等到其他人先公布之后再行动。我知道特斯拉的活动即将到来,我认为在本周四,对吧?10号。看看这些东西如何转化为某种形式的苹果人形机器人,这将非常有趣,这将是他们的一大摇钱树,也可能是下一个大产品。

我完全可以理解。如果你真的买了一个家用机器人来帮你做家务,我认为苹果的品牌将是一个很大的差异化因素。现在,有趣的是,看看他们是否会致力于此,鉴于他们在自动驾驶汽车项目上遭遇的灾难。是啊,谁知道呢,对吧?我的意思是,问题是,苹果可以投入数十亿美元到某个项目中,然后将其作为损失掩埋,这在某种程度上是相当疯狂的。但无论如何,看到他们这么做很酷

训练这个并发布它。进入政策和安全。我们从另一个重要故事开始,即SB 1047传奇的终结。你已经多次报道了这项法案的进展。

它已经通过了众议院。它一直在等待加州州长否决或批准它。他否决了这项法案。所以,当我们……

1047,这项法规法案要求在大型人工智能系统发布之前进行安全测试。它还有一些其他方式来规范大型公司,赋予州检察长起诉公司的权利。纽瑟姆州长否决了它,并且

认为它过于关注规范最大的人工智能系统,即模型大小,而不是使用……

它,比如使用人工智能的结果,这是争论的焦点之一。比如,你应该根据模型的大小来进行监管并在开发时提出要求吗?或者你应该在部署时进行更多监管?会发生什么?所以,你知道,显然引发了很多讨论,引发了一些思考,你知道,这是一个测试。这是美国人工智能联盟的第一次重大推动,并且

针对诸如前沿模型之类的东西,它被否决了。杰里米对此有何看法?我很好奇,因为如果你谈到它,我错过了他。他支持这项法案吗?我认为,在我看来,安全人员的共识是,这是一个好的步骤,这是有用的,尤其是在早期。我认为

人们倾向于赞成这样一种观点,即在一定规模的阈值下,你应该对你的模型有一些安全测试的要求。

所以,是的,我肯定认为安全人员对人们感兴趣。是的。是的,我的意思是,我认为这很有趣,我显然不会说我是一个政策方面的专家,但是最难的事情是,有多少人投票支持这项法案,他们根本不了解这些东西,可能只是根据这样的想法来投票:我们必须阻止这些系统,或者,你知道,没有真正理解它。我确实认为存在一个真正的问题。

我的意思是,我相信你也关注中国的故事。当你比较中国正在发生的事情的发展时,有一件真正需要注意的事情。最近有一个故事说,他们开始整合培训中心来在中国制作人工智能模型,因为这是政府,他们基本上控制了一切。他们可以将所有这些公司聚集在一起训练大型模型。

所以,从政治角度来看,我的一部分想法是,哎呀,现在很难对人工智能训练设置任何障碍,因为,你知道,这可能会成为一场地缘政治竞赛。也就是说,我也不希望不良行为者以某种特定方式破坏这些系统。我们可能正处于一个这些系统可能非常危险的时刻。我的意思是,我认为每个运营这些公司的人都说过某种形式的,

看,不好的事情会发生,我们必须假设情况就是这样。从某种程度上来说,每项新技术都是如此。这只是那些棘手的事情之一,我讨厌的是,我讨厌看到不好的事情发生。然后,强烈反弹,突然之间,在这个领域就什么也无法开发了。这是一个非常复杂的对话。我认为我多少理解纽瑟姆为什么这么做,

但同样,我觉得世界上需要某种版本的这个东西。对。突出这一决定的引言是,我不认为这是保护公众免受该技术带来的真正威胁的最佳方法。相反,该法案将严格的标准应用于即使是最基本的功能,只要部署大型系统。

所以它是在为更像欧盟人工智能法案的东西辩护,后者更侧重于应用。尽管这也在很大程度上阻止了欧盟很多人获得先进语音和其他类似技术。是的,完全正确。所以肯定需要权衡取舍。这并不完全令人惊讶。我认为我们确实看到了这一点,而且我

不会惊讶地看到在下一届会议上再次提出这项法案。但无论如何,另一个长期存在的传奇故事。我们与UAI法案一起经历了这个过程,多年来,我们一直在关注一项法案的进展、讨论和看法,并且

现在这项法案也结束了。下一个故事也与加州法律有关。在这种情况下,它涉及一名法官阻止一项新通过的与卡玛拉·哈里斯的深度伪造视频相关的AI法律,该视频显然被埃隆·马斯克转发了

所以这项新法律是AB 2839。我们看到许多类似的法律被签署,这些法律规定,对于在社交媒体上发布深度伪造视频的人,特别是可能混淆选民的政治候选人的深度伪造视频,你需要……

这项法律规定,你不能在网上发布此类内容。

这受到了一个发布卡玛拉·哈里斯副总统AI深度伪造视频的人的挑战。理由是该深度伪造视频是讽刺作品,并且

在这起案件中,美国地区法官下令进行初步禁令,暂时阻止该法律的执行,称该法律过于宽泛,可能导致当局滥用职权。对我来说非常有趣。我可以理解这种说法,认为这是讽刺,人工智能生成的视频在某种程度上是讽刺。但这并不意味着这是最终的。这是可能的。

正如我们所说,是暂时的。所以我非常想知道事情会如何发展。是的,我的意思是,这里有一个论点你可以说,好吧,如果你有一个人长得像卡玛拉·哈里斯,并且你制作了一个小品,他们做了同样的事情呢?现在,当然,它没有使用她的确切面孔,但它仍然是讽刺,并且

这里有一个论点你可以真正看到的是第一修正案。我的意思是,作为在我一生中写过喜剧并在深夜节目中工作过的人,你绝对希望能够做一些这样的事情。而且,你知道,我非常了解马特·帕克和特雷斯

特雷·斯通?是马特·帕克,特雷·斯通吗?是的,那些小公园的人。是的,他们创建了一家名为Deep Voodoo的公司,他们拥有一家基本上帮助他们创建深度伪造视频的公司,他们有一部即将上映的电影,这是一部完整的特朗普深度伪造电影。就像那样,如果你做这样的事情,你不会认为这些人是……

你知道,本身就是非法的。但在这种情况下,如果它是深度伪造视频,它突然就不同于制作小品了。我认为这是一个有趣的论点,它不一定是关于使用的技术,而是关于它的使用方法。这在一些立法中是一个奇怪的贯穿线,这些立法可能正在将人工智能变成一个妖怪,而问题更多的是关于它如何被使用。嗯哼。

还有一个故事。谷歌正在投资10亿美元在泰国建设一个数据中心,以加速人工智能的发展。所以,你知道,这不是一个重大的政策故事,但我认为我发现看到许多此类投资被宣布很有趣,微软和谷歌现在也在投资大量资金用于建设外国数据中心,在这种情况下是在泰国,还在其他国家,如越南,并且

你必须认为,部分原因可能是他们确实需要分散人工智能的计算能力,对吧?进行人工智能计算非常耗能。随着你进行越来越多的AI工具开发,你确实需要更多的数据中心,并且你确实会使用更多能源等等。所以,显然,这是一项非常大的投资,用于建立人工智能。

数据中心并扩展其云基础设施,你知道,可能是为了亚洲,对吧?资金将遍布世界各地,因为最终它将与土地有关,对吧?所以,比如,我可以在哪里获得廉价的土地?我可以在哪里获得廉价的劳动力来帮助运行这些东西?所以,我认为你可能会看到更多这样的东西部署在世界各地的不同地方。是的。

接下来是合成媒体和艺术,还有一个故事要讲。这是一个可爱有趣的故事,也许不太重要,但我认为将其包含在内是为了以轻松的语气结束。这个故事是关于人工智能阅读教练初创公司Ello让孩子们创作自己的故事。所以他们推出了这个名为“故事时间”的功能,允许孩子们通过从各种设置、角色和

情节中进行选择来生成个性化故事。所以这个AI伴侣会倾听孩子朗读,纠正发音错误和错词,并提供两种阅读模式,一种是AI和读者轮流阅读,另一种是AI进行大部分阅读。你可以听AI讲述你的故事,也可以在AI的帮助下学习重读。

是的,显然它已经非常流行了。他们为数万个家庭提供服务,他们已经阅读了70万本书。他们的价格是每月15美元。

对接受政府援助的家庭提供折扣。所以,我的意思是,这是一件非常酷的事情。就像我们讨论过一段时间一样,人工智能将开始成为导师的一种形式,对吧?这是一种无摩擦的、有趣的方式。这不像,你知道,发送我的数学作业,但是孩子们,尤其是在疫情之后,我知道有人,我的妻子是一位写作老师。她实际上教写作,创意写作,也是一位小说家。她说的一件事是,疫情后,很多孩子在学习阅读方面遇到了极大的困难,尤其是年龄较小的孩子。所以,无论你能做些什么来让孩子们阅读,你知道,父母总是和孩子们一起阅读。如果你有孩子,显然我们也这样做。我的妻子在他们小时候经常这样做,但是

但这只是一个机会,可以做一些除了Roblox或其他一些事情之外的事情,这是一种有趣的方式,让他们学习而不会真正感觉到他们在学习,我认为这是一件很酷的事情。是的,完全正确。我认为我一直觉得人工智能革命最酷的事情之一是它使高质量的教育能够广泛普及。这是一个例子。

我的印象是,我不太了解孩子们现在的情况。看到下一代人可能与人工智能一起长大,这将很有趣,对吧?他们与我们有何不同。但希望,是的,你最终会得到一些可爱的故事,孩子们最终会沉迷于珠子。是的。或者我认为另一件重要的事情,作为关于人工智能教育故事的最后一点,是

我认为深度思考是我们必须教给孩子们的,因为我认为不进行深度思考会越来越容易。所以我希望这种基础教育真的很有趣,并且可以通过这种方式进行。但是,然后教学就更多地关注批判性思维,关于如何思考某事并将其分解,因为人工智能最终会为我们做到这一点。我认为人们仍然需要能够在脑海中处理这些事情。所以我希望它能让孩子们

从更多死记硬背的东西或基础的东西转向更复杂的推理和学习。是的,绝对的。说到这里,我们已经浏览了所有新闻故事,虽然这仍然是本集的一个半小时,但结束得有点短。我知道,这是一个很长的播客。

是的。因此,一如既往地感谢您的收听。我们一如既往地感谢您。与往常一样,您可以查看剧集说明以获取所有故事的链接,或访问lastweekin.ai或lastweekinai.com。我们实际上都有。Youbot.com。我们都有。是的,是的,是的。

并且,如果您还没有订阅,请考虑订阅,并考虑评论或分享。总是很高兴看到。感谢Gavin的联合主持。像往常一样,这很有趣。

是的。你可以在YouTube上找到我们的节目“AI for Humans”,这是一种非常简单的方法。只需访问YouTube,搜索“AI for humans”,“AI for humans”节目或“AI for humans”,“Kevin Pereira”,我的播客搭档,他经常出现。因为他比我更出名,或者在任何播客服务上找到我们。我们也有相当多的人在收听我们。所以,是的,看看我们的“AI for humans”。是的,我推荐它。试试看,这很有趣。嗯,

但也请继续收听这个播客。当然,我们喜欢这个播客。我觉得这些人是元老级人物。你是什么时候开始的?2020年3月。是的,我觉得你们是元老级AI播客,或者至少是其中之一。其中之一,是的,完全正确。Lex Friedman过去曾经做过AI播客,在那之前它是Lex Friedman。对吗?他的播客最初是不是AI?哦,这很有趣。AI播客,是的。

太搞笑了。无论如何,我们完成了。享受片尾AI歌曲。好吧,

欢迎来到未来剧集,我发现让我们深入探讨,小事蓬勃发展的地方人工智能是热门话题,数据永不休眠不仅仅是Movie Gen,它再次改变,飞跃前进上周的人工智能,我们正在分解它从神经元回合,街头的谈资在科技世界,想象力与现实相遇的地方

步入现在,明天才刚刚开始。在充满活力的阳光下吹着屏幕和自行车。人工智能通过电子血管低语秘密。在这个充满活力的领域,知识至上。上周的人工智能袭击了我们的Facebook。

梦想拥挤在寒冷中,故事大胆,每一次创新都在说话在一个脉动世界,未来在说话上周的人工智能正在分解从宇宙回合,街头的谈资在死亡世界,我们不仅仅是被吃掉仙境被打扰了

我可以死于青春期。我们今天早上都有,我赢了一种方式让我们改变电话。

堆放头盔和靴子,一个穿着蓝色基因体恤的极客,警告崩溃的车轮。一周又一夜,你这位巫师没有停下来。我们正在追逐明天,在散步中点亮。是的,你肯定不介意,D。总而言之,未来是买来的。而不是所有的伤害,你会看到这是你的损失。我们正在追逐明天,幸运地照亮。

上周的人工智能已经展开眼泪梦想拥挤而寒冷以及大胆的故事每一次创新都在说话在一个脉动世界看到泄漏这就是我们的女孩仍然会保持强大的寒意我可以死于青春期我们今天早上会下巴我赢了,但它正在推动电话我以为我们知道