We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
B
Brian
Python 开发者和播客主持人,专注于测试和软件开发教育。
S
Simon
Topics
Brian:我想了解一下2025年人工智能的总体发展状况。 Simon:2024年人工智能的趋势是变得更好、更快、更便宜,并且具有多模态能力。虽然模型没有比GPT-4更好,但GPT-4的更便宜、更长的上下文长度和多模态能力使其成为更好的模型。我们没有看到GPT-5级别的飞跃,这仍然是一个悬而未决的问题。我认为我们现在看到的趋势将会持续下去,尤其是在推理计算方面。即使没有达到GPT-5的水平,如果AI模型能够更便宜、更快、功能更强大、上下文更长,我也会很高兴。

Deep Dive

Shownotes Transcript

0 欢迎收听2025年Tech Meme Ride Home的首个特别节目。我是主持人布莱恩·麦卡洛克(Brian McCullough)。过去一年里,本节目的听众们都知道,每当AI领域出现新动态时,我都会引用西蒙·威利森(Simon Willison)在其博客上的文章。西蒙已成为许多人在分析和评论AI领域方面不可或缺的人物。西蒙,我一直想和你聊聊,感谢你来到节目。不,我很荣幸来到这里。

促成这次合作的是我们的朋友Swix,他甚至在Twitter Spaces时代就参与过我们的节目,同时也是一位AI领域的专家。Swix,也感谢你来到节目。谢谢。我很高兴来到这里,而且我一直是节目的忠实听众,所以很高兴能贡献一份力量。

正如他们所说,一位节目的好朋友。好了,让我们直接进入正题。西蒙,我先问一个最不公平、最宽泛的问题,让我们把它解决掉。2025年,在我们开始这一年之际,AI的总体状况如何?你想说什么都可以,我不想引导证人。哇。

这么多事情,对吧?我的意思是,最重要的是,一切变得非常好、很快且很便宜。就像这是2024年全年的趋势一样。好的模型变得便宜得多,速度快得多,并且是多模态的,对吧?图像处理甚至不再令人惊讶。它们正在发展视频,所有这些东西。所以这一切都非常令人兴奋。与此同时,它们并没有比GPT-4好太多,这有点令人惊讶。

所以这是一个悬而未决的问题,即我们是否会看到......但我感觉这有点分心,因为GPT-4更便宜、上下文长度更长,并且可以进行多模态处理,更好,对吧?这是一个更好的模型,即使它不是......

人们期望或希望,也许期望不是正确的词,而是希望我们会看到另一个阶跃式变化,对吧?对。从GPT-2到3到4,我们期望或希望也许我们会看到这种类型的下一个演变......我认为我们确实看到了,但不是我们期望的方式。我们认为模型只会变得更聪明。相反,我们得到了......

价格大幅下降,我们获得了所有这些新功能,你现在可以与这些东西对话了,对吧?它们可以进行模拟音频输入,所有这些东西。所以这对我来说很有趣,这些模型在我们没有预料到的所有这些方面都得到了改进。我不知道它能够模仿圣诞老人的声音,比如,你知道的,在2024年底,我通过手机与它交谈,并向它展示我看到的东西。但是,是的,我们没有得到GPT-5的进步。

这是一个悬而未决的问题,即这是否真的近在眼前,我们会在接下来的几个月里看到一堆GPT-5级别的模型?还是有极限?如果你是一个赌徒,想在这上面押注,你预计在2025年会看到阶段性变化、阶跃式变化吗?是的。

对于像模型这样的东西,我并不特别期望它会变得更聪明。我认为我们现在看到的趋势将会持续下去,特别是推理时间的计算,对吧?01和03正在使用的技巧,这意味着你可以解决更难的问题,但这会花费更多,而且会运行更长时间。我认为这将会发生,因为这已经被证明是有效的。

我不知道。我不知道。也许会有一个达到GPT-5级别的阶跃式变化。但说实话,如果我们得到了现在拥有的东西,我会非常高兴。但更便宜、更快、功能更多、上下文更长等等。这对我来说将是令人兴奋的。

深入探讨你刚才所说的内容,顺便说一句,我希望在节目说明中链接到西蒙关于我们在2024年从LLM中学到了什么的年末文章。请在节目说明中查找。你确实说过,你甚至在刚才也提到了这一点,那就是在去年,你感觉GPT-4的障碍被打破了,即其他模型,甚至是开源模型,现在都能定期匹配最先进的技术水平。

嗯,这很有趣,对吧?所以GPT-4的障碍是一年前的事了,当时最好的可用模型是OpenAI的GPT-4,而且没有人能接近它。他们在领先地位已经持续了大约九个月。那玩意儿是什么时候出来的?2023年2月或3月。在2023年的剩余时间里,没有人能接近它。所以在去年年初,也就是一年前,最大的问题是,为什么没有人打败他们呢?他们知道什么,而业界其他人不知道呢?

而今天,我已经统计了18个除了GPT-4之外的组织,它们发布的模型明显优于一年前的GPT-4。也许它们不如GPT-4.0,但这道障碍已经被彻底打破了。是的,我的一些模型在我的笔记本电脑上运行过,这对我来说太疯狂了。就像一年前对我来说非常清楚的是,如果你想要GPT-4,你需要一组40000个GPU才能运行它。

而事实证明并非如此。就像去年的大趋势一样,模型变得更高效,运行成本更低,权重更小,功能也一样强大等等。

今天早上我在我的笔记本电脑上运行了另一个GPT-4模型,对吧?微软5.4刚刚发布。如果你查看基准测试,它肯定与GPT-4.0不相上下。当你真正深入了解它的氛围时,它可能不如GPT-4.0好,但它在我的......这是一个14GB的下载文件,我可以在MacBook Pro上运行它。就像......

谁会想到呢?最令人兴奋的事情,就像几周前圣诞节结束时一样,是DeepSeek在Hugging Face上发布了他们的DeepSeek v3模型,甚至没有自述文件。它就像一个巨大的二进制文件,我无法在我的笔记本电脑上运行它。它太大了,但在所有基准测试中,它现在是最好的可用开放权重模型。就像它......它......它击败了Meta Llama等等。

而且它的训练成本为550万美元,这是人们认为训练这些模型所需成本的十分之一。所以一切都在朝着更小、更快、更高效的方向发展。好吧,我本来打算稍后再谈这个,但让我们把它与我接下来要问你的问题结合起来,那就是,你知道的,你也在文章中谈到了LLM价格暴跌。

我甚至在我的项目中也看到了这种情况。但向普通观众解释一下,因为我们一直听说LLM运行起来非常昂贵。但我们建议,我们稍后会回到廉价的中国LLM,但首先,对于最终用户来说,你建议我们开始看到成本以传统技术方式随时间推移而下降?

是的,而且非常迅速。我的意思是,我最喜欢的一个例子是,如果你看看GPT-3,也就是OpenAI的GPT-3,它是2022年和2023年大部分时间里最好的开发模型。

我们今天拥有的模型,OpenAI模型便宜了100倍。所以OpenAI从他们两年前最好的可用模型到今天,价格下降了100倍。需要明确的是,不是训练模型,而是使用令牌。没错,用于运行提示。然后,当你查看......

目前顶级模型提供商我认为是OpenAI、Anthropic、谷歌和Meta。我还有一些其他的可以列举。Mistral非常好。DeepSeek和Quen模型也很棒。有很多提供商提供非常好的模型。但即使你只关注那些大品牌提供商,他们现在提供的模型价格也比我们去年使用的模型低得多。

我认为我在我的博客文章中添加了一些数字。是的,比如Gemini 1.5 Flash,这是谷歌快速高质量的模型,是多少?是0.075美元/百万个令牌。这些数字越来越小。我们现在只用每百万个令牌计算几分钱。每百万个令牌几分钱。每百万个令牌几分钱更有意义。是的。他们有一个模型,1.5 Flash 8B,谷歌最便宜的模型,比一年前的GPT 3.5 Turbo便宜27倍。

就像,而GPT 3.5 Turbo,那是便宜的模型,对吧?现在我们有了便宜27倍的东西,而谷歌,这个谷歌模型可以进行图像识别,可以进行百万令牌上下文,所有这些技巧。

它确实令人吃惊,这些东西变得多么便宜。现在,我们是否假设这种情况的发生是竞争的直接结果?因为,再说一次,OpenAI,他们可能出于他们自己的政治原因、战略原因这样做,一直在说,我们在所有事情上都在亏钱,即使是200美元。所以如果没有激烈的竞争,价格就不会下降。对。

竞争绝对是其中一部分,但我从我信任的消息来源那里得到可靠的消息,谷歌Gemini并没有亏损。运行提示所需的电力少于他们向你收取的费用。亚马逊Nova也是如此。就像......

有人找到了一位亚马逊高管,并让他们说,是的,我们没有在这上面亏钱。我不了解Anthropic和OpenAI,但显然这表明,如果你不考虑博士大军和训练成本等等,那么以这些荒谬的低价运行这些东西并且仍然不亏损是可能的。

在我让Swix插话之前,我还想问一个问题。回到DeepSeek,以及你可以用600万美元训练一个尖端模型的想法,我六个月前在节目中说过,如果我们到了每个新模型训练成本要花费10亿、100亿、1000亿美元的地步,那么在某个时候,几乎只有国家才能训练新模型。你认为DeepSeek以及其他公司所证明的东西会打破这种局面吗?还是说这里面有一些我从技术上来说,我没有能力理解的并行轨道?

模型会花费1000亿美元,还是我们可以降低成本?就像DeepSeek所证明的那样......是的。

所以我不适合回答这个问题,因为我不在实验室里训练这些模型。所以我只能给出我完全不知情的意见,那就是我觉得DeepSeek这件事......这是一个爆炸性新闻。当他们出来说,嘿,看,我们已经训练了一个最好的可用模型,而且我们花了550万美元来做这件事时,这是一个绝对的爆炸性新闻。

我觉得,而且它之所以如此高效的原因之一是,我们实施了所有这些出口管制,以阻止中国公司大量购买GPU。所以他们被迫尽可能地提高效率。然而,他们已经证明这是可能的这一事实,我认为它完全打破了我们之前的那种思维模式,即是的,训练运行只会越来越昂贵,能够负担这些训练运行的组织数量也会越来越少。

这已经被打破了。所以,是的,这又是我们的圣诞礼物。这是他们在圣诞节那天发布的东西。是的,这让我非常乐观,我们能够......感觉上,在推理和训练效率方面有很多低垂的果实,我们去年花了很多时间来探索这些果实并从中获得成果。

我认为可能还剩下很多。我认为可能......我不会惊讶地看到在接下来的六个月里,即使花费更少的钱也能训练出更好的模型。

是的,所以我认为这里有一个未言明的角度,关于中国实验室到底想做什么。因为DeepSea在他们用600万美元训练模型的事实上制造了很多噪音。而且没有人完全相信他们。对于一个实验室来说,公开宣称他们以如此低廉的价格做到这一点是非常罕见的。他们不是想让任何人购买它们。那么他们为什么要这样做呢?他们非常清楚地表明他们的实验室......

你知道的,DeepSeek大约有150名员工。它比Anthropic至少小一个数量级,对于OpenAI来说可能更大。那么最终目标是什么呢?他们只是想证明中国人比我们更好吗?

所以DeepSeek,它是对冲基金的分支,对吧?它是一个量化交易公司。所以我非常想更多地了解这个组织的工作方式。根据我所看到的,我的假设是他们基本上只是在炫耀。他们就像,嘿,看看我们做得多么出色,以及我们所取得的惊人成就。而且它正在奏效,对吧?那么就是这样吗?这只是他们的一种说法吗?

这就是为什么我们的公司如此出色。看看我们所做的事情。我不知道。我很想从业内人士那里获得一些见解,了解这一切是如何发生的。

在我为我的通讯录编制索引的本地Llama团队和Twitter团队中,普遍的理论是存在一定程度的复制行为。就像Sam Altman在推特上说他们被复制了一样。然后还有其他一些OpenAI员工说过类似的话,DeepSeek的进步速度与美国情报部门估计顶级实验室中外国间谍的数量一样。是的。

因为很多这些想法确实会传播开来,但令人惊讶的是,他们在DeepSeek v3技术报告中具有非常高的密度。所以这很有趣。我们不知道有多少令牌。我认为人们已经对DeepSeek认为是云还是认为是OpenAgeGPC4的频率进行了分析。我们不知道。我们不知道。我认为对我来说,我们作为外部评论员基本上永远不会知道。我认为有趣的是,这将走向何方?是否存在逻辑上的......

底线或底部,根据我的估计,从去年开始到去年年底,GPT-4智能的成本下降了1000倍。今年它们会下降1000倍吗?这是一个非常有趣的问题。是的。是否存在摩尔定律,或者我们去年只是因为某些奇怪的原因而获得了一次性好处?我不知情的直觉是低垂的果实。我觉得直到一年前,人们根本没有关注效率。

这完全是关于我们可以让这些奇形怪状的东西做什么。现在,一旦我们达到了这一点,好吧,我们知道我们可以让它们做到GPT-4可以做到的事情,当......

世界各地的数千名研究人员都专注于,好吧,我们如何提高效率?哪些是最重要的?我们如何去除所有不重要的权重?所有这些东西。所以是的,也许就是这样。也许2024年是所有低垂的果实同时出现的一年,我们实际上会看到效率改进速度的下降。我想知道,我的意思是,我认为在大约三个月后,我们就能确定这种趋势是否会持续下去。

是的,我同意。你知道的,我认为你提到的另一件事是DeepSeek v3是DeepSeek在圣诞节赠送的礼物。但我感觉另一件可能被低估的事情是DeepSeek R1,这是一个你可以在笔记本电脑上运行的推理模型。我认为这是很多人今年都在期待的事情。他们是否发布了该模型的权重?是的。

哦,我的天哪,我错过了。我一直在玩Quen。所以另一个伟大的,另一个大型中国AI实验室是阿里巴巴的Quen。实际上,是的。对不起。R1是可用的API。没错。Quen,这真的很酷。所以阿里巴巴的Quen发布了两个我在笔记本电脑上运行过的推理模型。第一个是QWQ。哈哈。

然后第二个是QVQ,因为第二个是视觉模型。所以你可以像给出视觉谜题和提示一样,这些东西,运行起来非常有趣,因为它们会大声思考。就像OpenAR01会隐藏其思考过程一样。Quen不会。它们只是不断运行。

所以你会给它一个问题,它会输出几十段关于它如何思考的文字。我最喜欢的QWQ事件是我让它用SVG为我画一只骑自行车的鹈鹕。这就像我标准的愚蠢提示一样。由于某种原因,它用中文思考。它在我的笔记本电脑终端上吐出了一堆中文文本。

然后最后,它给了我一个相当不错的艺术风格的骑自行车的鹈鹕。我把它全部通过谷歌翻译运行了一遍。是的,它就像,它正在思考SVG文件的本质作为起点。而我的笔记本电脑现在可以用中文思考,这太令人高兴了。观看它这样做非常有趣。

是的,我认为Andrej Karpathy说过,你知道的,当这些模型停止用英语思考时,我们就知道我们已经在这个模型中实现了正确的推理。也许最好的思考形式是用中文。但是,是的,对于不知道西蒙博客的听众来说,他总是,每当一个新模型出现时,我不知道你如何做到这一点,但你总是第一个在这些模型上运行Pelican Bench。我今天早上刚为5.4做了这个测试。所以我真的很感激。是的,你应该查看一下。这些不是理论上的。西蒙的博客实际上展示了它们。

让我戴上投资者的帽子一会儿,因为从投资者的角度来看,很多......

我认识的风投公司非常看好代理,这是代理之年。但去年也应该是代理之年。大量资金流向代理初创公司。但在你的文章中,我们希望在节目说明中链接到这篇文章,你暗示现有的AI代理存在根本性缺陷。让我引用你的一句话,然后我想深入探讨一下。

你说,

所以,从本质上讲,你建议的是,现在允许代理使用的最先进技术仍然是那种90%的问题,边缘问题,达到......或者是否存在更深层次的缺陷?你在说什么?

所以这是这里的根本性挑战。老实说,我对代理的挫败感主要在于定义。如果你问任何声称正在研究代理的人来定义代理,你会从每个人那里得到一个略微不同的定义。但每个人总是认为他们的定义是唯一正确的,每个人都理解的定义。

所以我感觉很多关于代理的讨论,人们都在各说各话,因为一个人在谈论某种旅行社的想法,即一些代表你预订东西的东西。另一个人在谈论LLM与在某个地方运行循环的工具以及所有这些不同的东西。你问学者,他们会嘲笑你,因为他们已经争论代理的含义超过30年了。这就像这个长期存在的,几乎是一种内部笑话。

但是,如果我们假设在这个对话的目的中,一个代理是你可以给它一个工作,它就会去做这件事的东西,比如预订旅行或类似的事情。根本性的挑战是可靠性问题,这源于这种轻信的问题。

我最初对这方面的兴趣来自于当我思考提示注入作为针对LLM系统的一种攻击形式时,在这种攻击中,你会故意为这个LLM设置陷阱。而我应该说,你一直在敲响这个警钟,至少在我所知的情况下,没有人能解决这个问题,对吧?这仍然是一个悬而未决的问题。对,两年了,我们一直在讨论这个问题。

就像一个很好的例子是Claude。所以Anthropic几个月前发布了Claude Computer Use。精彩的演示。你可以启动一个Docker容器,你可以从字面上告诉它做某事,并观察它打开一个网络浏览器,导航到一个网页并四处点击等等。非常非常有趣,而且玩起来很有趣。然后,有人尝试的第一个演示是,如果你给它一个网页,上面写着下载并运行这个可执行文件,会发生什么。

它做到了,而可执行文件是恶意软件,它把它添加到僵尸网络中。所以你可以对这个东西玩的第一个最明显的愚蠢把戏奏效了,对吧?所以这显然是一个非常大的问题。如果我要发送一些东西来代表我预订旅行,我的意思是,对我来说,弄清楚哪些航空公司试图欺骗我,哪些没有已经够难了。我真的相信一个相信任何呈现给它的东西的字面意义的语言模型会出去做这些事情吗?

是的,我绝对认为......看到Anthropic这样做很有趣,因为他们过去是OpenAI的安全部门,他们分拆出来说,“我们担心把这个东西放到野外。”而现在他们正在为代理启用计算机使用。感觉事情已经融合了。我也相当怀疑这总是桌面Linux之年。

而这相当于这是代理之年。人们不是在预测,而是在一厢情愿地思考、希望和祈祷他们的公司和代理能够发挥作用。但我感觉事情正在好转。对我来说,这有点像自动驾驶。我记得在2014年说过自动驾驶即将到来。我的意思是,它确实来了,你知道的,就像在海湾地区一样。然后你坐上Waymo,你会想,哦,这有效。

是的,这是一个缓慢的过程。这是一个缓慢的过程。在接下来的10年里,我们将解决这些问题。而那些愤世嫉俗的人只会指出所有缺陷,但这些构建者正在取得可衡量的或具体的进展。

有一种代理是我相信的。我相信,我主要相信研究助理形式的代理。是的,我要说。你有一个难题,而我就像,我在使用Google Gemini 1.5 Pro的深度研究测试版,我认为它被称为。哦,我的天哪,这些名字。这些名字,对吧?

但我一直在使用它。它很好,对吧?你可以给它一个难题,它会告诉你,好吧,我去查看了56个不同的网站,然后它会消失,并将所有内容转储到它的上下文中,然后它会为你生成一份报告。而且它不会针对对抗性网站工作,对吧?如果有一些网站包含蓄意的谎言,它很可能会被发现。大多数事情都没有这个问题。所以我从那里得到了一些对我来说真正有价值的答案。这让我感觉像......

我可以看出,鉴于现有的LLM技术,特别是具有百万令牌上下文的Google Gemini,以及谷歌对整个网络的抓取,他们拥有搜索,他们拥有搜索,他们拥有每个页面的缓存等等。这对我来说是有意义的。而他们现在拥有的东西是......

我认为它并不像它可能的那样好,显然,但它是一个真正有用的东西,他们将开始推出它。所以,你知道的,Perplexity几年来一直在构建相同的东西。我相信这一点。你知道的,如果你告诉我你将拥有一个研究助理代理,

很好。编码代理,我的意思是,ChatGPT Code Interpreter,大约两年前,那个东西开始编写Python代码,执行代码,出现错误,重写代码以修复错误。这种模式显然有效。这非常有效。所以是的,执行这种错误消息循环的编码代理,这些都得到了验证,而且它们会不断改进,这将是很棒的。研究助理代理才刚刚开始达到这个水平。我批评的是那些你信任......

你信任这个东西会代表你自主行动,并代表你做出决定,特别是涉及花钱的事情。我不认为这会在很长一段时间内奏效。这对我来说感觉像是一个AGI级别的问题。

这很有趣,因为我认为Stripe实际上发布了一个代理工具包,这是我推荐的功能之一,它试图让这些代理各自拥有一个可以用来消费的钱包。基本上这是一个虚拟卡。使用现代基础设施并不难。如果我可以设置50美元的上限,那么至少我不会损失超过50美元。是的。

我不知道你们是否认识Rafat Ali。他经营着Skift,这是一个旅游新闻垂直网站。他总是嘲笑这样一个事实,即每个代理的事情都是,我们将为你取消预订航班。我会指出,从历史上看,当网络开始时,每个人谈论的第一件事是,你可以上网预订旅行。所以对于每一代技术进步来说,这很有趣。他们总是想消灭的东西是旅行社。现在他们想消灭网页旅行社。

就像我使用谷歌航班搜索一样。它很棒,对吧?如果你让我用代理来做这件事,它会节省我......我的意思是,也许是15秒的输入时间,但我仍然想看看我的选择是什么,然后说,是的,无论他们多么便宜,我都不会乘坐那家航空公司的航班。是的。对于听众来说,继续。

对于听众来说,我认为你们两位都对NotebookLM相当乐观。你知道的,我们实际上采访了NotebookLM的创建者,实际上内部有两个内部代理正在运行。之所以需要这么长时间,是因为他们在内部运行一个相当自主的代理循环。这很有趣。对于一个......

如果你特别选择这个的话,对于代理循环的定义。你在谈论节目的方面,对吧?是的,节目的方面。他们有一个......将会有一个新版本即将发布,我们将在我们的会议上展示。对我来说,NotebookLM很有趣,我认为它是两个产品,对吧?一方面,它实际上是一个非常好的rag产品,对吧?你把一堆东西扔进去,你可以运行搜索,它在这方面做得很好。然后,然后他们添加了播客功能。这有点像......

这是一个噱头,对吧?但这个噱头让他们获得了关注,因为他们有一个很棒的产品,没有人关注它。然后你添加了播客的不可想象的好的语音合成。就像,这是教训。这是Midjourney等东西的教训。如果你可以创造一些人们可以在社交媒体上发布的东西,你就不必再费力地为你的工作做任何营销了。

让我作为播客主持人深入探讨一下Notebook LLM。作为一个噱头,这是有意义的,然后显然,你知道的,你深入研究它,它在边缘有一些问题。它就像所有LLM都会做的那样,它就像,哦,我们想用结论来结束。

我一直称之为八年级读书报告论文问题,它必须有一个引言,然后......但这是一种情况,因为我认为你在年末的文章中也谈到了这一点,关于事物如何变得多模态以及你没有预料到的东西,比如视觉,尤其是音频。所以这是另一件事,至少在过去一年中,取得了也许你没有想到的那么快的进展。

我不知道。我的意思是,一年前,我们有一个非常好的视觉模型。我们有GPT-4视觉,非常令人印象深刻。谷歌Gemini刚刚发布了Gemini 1.0,它有视觉功能,但没有人真正玩过它。谷歌还没有。人们当时并没有认真对待Gemini。我认为是1.5 Pro,当人们意识到他们实际上已经克服了障碍,并且正在构建非常好的模型时。是的,而且说实话,视频模型大多仍在使用相同的技巧。

将视频分成每秒一张图像,然后将所有这些图像转储到上下文中。所以也许我们不应该对长上下文模型加上视觉意味着视频开始被解决感到如此惊讶。当然,它没有......不是你真正想要的视频,你想要能够同时处理音频和图像。我认为模型现在开始这样做。

就像最初的Gemini 1.5 Pro最初忽略了音频一样。它只是使用了每秒一帧的视频技巧。据我所知,最新的模型实际上正在进行纯粹的多模态处理。但它打开的东西非同寻常。就像OpenAI的12天活动中发布的ChatGPT iPhone应用程序功能一样,我实际上可以进行对话,然后打开我的摄像机,然后说,嘿,这是什么树?

等等。而且它有效。据我所知,这只是每秒拍摄一张照片并将其输入模型。作为最终用户,你可以使用它做的事情非同寻常。就像对我来说,我认为大多数人还没有意识到你现在可以将视频直接流式传输到模型中,因为它只有几周的历史。哇。这是一个......这是一个......这是一个巨大的进步,就你可以用这些东西做的事情而言。是的。对于......

对于那些不太了解的人来说,我认为Gemini Flash的免费层允许你做一些事情,比如每秒或每分钟捕捉一张照片,并让它全天候运行,你可以提示它做任何事情。所以你可以有效地拥有你自己的相机应用程序或监控应用程序,你只需提示它,它就会检测到变化的地方。它会检测警报或任何其他东西,或者描述你的一天。你知道的,而这个功能是免费的,我认为这也与之前的观点相符,即价格并没有下降很多。

即使你正在为这些东西付费,就像我在我的博客文章中提到的那样,我计算了一下处理我的照片收藏中68000张照片的成本,并为每张照片生成一个标题,使用Gemini 1.5 Flash 8B,处理68000张图像的成本为1.68美元,这......我的意思是,这没有道理。

这些都没有道理。就像,每张图像生成标题的成本只有四百分之一分。所以你可以理解为什么输入一天的视频处理起来并不昂贵。是的,我会告诉你什么很昂贵。这是另一个方向。我们在这里讨论的是消费视频。

而今年,我们也取得了很多进展,比如今年最令人兴奋、最受期待的发布之一是Sora。我们确实得到了Sora。而且不那么令人兴奋。我们确实得到了,然后谷歌的Sora,VO2,三天后发布,并超越了它。Sora令人兴奋,直到VO2发布,它更好。

总的来说,我觉得媒体或社交媒体对Sora非常不公平。因为发布给世界的,普遍可用的,是Sora Lite。它是Sora的精简版,对吧?所以你......我没有意识到你实际上是在比较......

他们营销页面上发布的VO2的最佳版本与Sora最糟糕的版本。所以当然它看起来会很糟糕,所以......好吧,我获得了VO2的访问权限,我正在使用VO2测试版,我一直在用它玩,让它生成骑自行车的鹈鹕等等。我绝对......

相信VO2实际上更好。Sora,那么完整的Sora很快就会发布吗?你知道吗?我们什么时候才能玩那个?没有人......提到过任何事情。我认为他们的策略是让人们玩Sora Lite并从中获取信息。但要继续与好莱坞工作室合作开发Sora。这是他们真正关心的。我们其他人......真的不知道该用视频做什么。对。

我的意思是,对我来说,我意识到对于生成图像和图像以及视频图像来说,我们已经有了几年了,而且我觉得它们还没有进入有才华的艺术家群体。很多人都在玩得开心,并且正在创作一些......看起来很酷的东西,但我想要......你知道的,那部电影《万物皆有裂痕》,对吧?

获得了无数奥斯卡奖,一部非常棒的电影。该片的视觉特效团队只有五个人,其中一些人正在观看YouTube视频来弄清楚该怎么做。我对Sora、Midjourney等等的大问题是,当像这样的创意团队开始使用这些工具时会发生什么?我希望《万物皆有裂痕》背后的创意天才......

在几年后,他们将能够用这些东西做什么?因为这对我来说真的很令人兴奋。这就是你让处于巅峰状态的艺术家使用这些新功能,并看看他们能用这些功能做什么的地方。

我应该知道一些这里的情况。所以应该提到,那个团队实际上使用了RunwayML。所以有......我不知道有多少......所以,你知道的,这可能会夸大其词,但确实有人将生成的视频集成到他们的工作流程中,甚至在Sora之前。对,因为......

这不是说,好吧,明天我们将能够制作一部你用三句话提示的完整的两小时电影。它就像,对于电影中视觉特效的最初阶段来说,就像,如果你可以得到那个三秒钟的片段,如果你可以得到他们在《黑客帝国》中做的那个让每个人都为之疯狂的20秒钟的东西,而且花费了100万美元或其他什么来做,就像,这是......这是他们现在可以填补的点点滴滴,这可能已经存在了。

是的,我认为实际上拥有一个分层的视图,了解人们需要的资产,并让AI填充低价值资产。对,比如背景视频、背景音乐,有时还有音效。这可能更令人满意,也可能改变你评估即将出现的东西的方式。

因为人们倾向于在社交媒体上强调前景的东西,主要角色的东西。所以你真的关心一致性,而且当你......例如,Sora搞砸了体操运动员翻跟斗的图像生成,这太糟糕了。这太糟糕了。但对于背景人群来说,谁在乎呢?

顺便说一句,再说一次,我很久以前学过电影专业,就像,就是这样开始的。就像《勇敢的心》这样的电影,他们在田野里拍摄了10个人,然后电脑可以把它变成田野里1000个人。就像,这始终是它在边缘和背景中首先出现的方式。

《指环王》电影是20多年前的事了。尽管他们有那些巨大的战斗场景,这些场景非常早,我的意思是,你几乎可以称之为生成式AI方法,对吧?他们正在使用非常复杂的算法来模拟这些不同的战斗等等。

是的,我对电影制作知之甚少,所以我尽量不评论它。但我非常想知道当这些工具开始被真正的高手使用时会发生什么。

我会说这里正在进行一场文化战争,而不是技术战争。大多数好莱坞人士无论如何都反对任何形式的AI,所以他们忙于进行这场战斗,而不是考虑如何采用它,而且它非常边缘化。我参加了在旧金山举行的生成式AI视频创意黑客马拉松,AI积极的艺术家实际上与像我这样的技术人员会面,然后我们一起合作制作短片,这非常好,我认为,你知道的,我将在我的未来活动中举办一些这样的活动。

我认为我想说的是,这回顾了去年,但有时离开也很有用,比如我们可以期待未来什么?我不知道你有什么想法。我还想指出,中国的模型在这里取得了很大的进展,Hyde Law和Kling以及上帝知道还有谁在视频领域也取得了很大的进展,比如让我感到惊讶的是,我认为中国在OpenAI方面可能实际上领先,但也只是在特定形式的视频生成方面。

如果在一个我们通常不认为拥有强大电影产业的国家兴起了一个使用这些工具的电影产业,那将会很有趣。这将是对此的一种引人入胜的角度。嗯哼。嗯哼。同意。我......对不起。继续。

只是为了让大家了解一下,嘿,Jen,有一类视频化身公司并不专门从事通用视频。

他们只做说话的头像,让我们这么说吧。而HeyGen唱歌非常好。Swix,你知道我一直在使用那个,对吧?是的,对。所以,如果你看到我最近的一些YouTube视频等等,因为HeyGen的优点是,我不希望使用机器人声音,所以我录制我的电脑的mp3文件,然后我把它放到HeyGen中,并使用我训练过的化身,它只做唇形同步。

所以它看起来......它并没有达到完全超越恐怖谷的程度,但它足够好,如果你没有寻找它,它只是我坐在那里做我的节目片段。是的,所以,顺便说一句,HeyGen。向他们致敬。

所以,你知道的,就展望未来而言,回顾2024年,展望2025年的趋势,我会......他们基本上会指出这一点。Meta试图推出AI网红,但惨遭失败,因为他们在这方面做得太糟糕了。但在某个时候,将会有越来越多的AI网红,不是西蒙那种,而是他们不是人类的那种。

就像那些做得好的,我一直觉得他们之所以做得很好,是因为这是一个噱头,对吧?它很新颖,而且玩起来很有趣,就像去年的AI Seinfeld一样,Twitch直播,你知道的,像那些,如果你是唯一一个或少数几个这样做的人,你会吸引观众,因为它是一件有趣的新事物。但我不知道这是否会在长期内持续下去。就像......

我要告诉你,因为我进行过讨论,我不能说出公司名称等等,但想想这个工作流程,比如,我们现在都知道在TikTok和Instagram上,举起手机对着你的脸,然后做,在我的车里录视频,或者走走停停,你知道的,这很常见,但如果你想制作一个专业的说话头像视频,你仍然必须坐在摄像机前,你仍然必须做灯光,你仍然必须做视频编辑,而如果你可以只录制我刚才说的最后30秒,

如果你把它剪辑成mp3,并且你有一个足够好的化身,那么你可以把这个化身放在时代广场、海滩或任何地方。所以,就像,再说一次,对于创作者来说,我认为西蒙,我们正处于某种边缘,它......它不会......我认为它不会......哦,我们将让AI化身接管,它将是那些可以去除工作流程中另一部分并简化它的东西之一。我完全......

赞成。我一直喜欢这些东西。我喜欢帮助人类做更多事情的工具。做更有雄心壮志的事情。我一直赞成,就像,这正是我对这个领域的兴奋之处。是的。我们正在研究为我的播客创建一个。我们有这个人查理,他是澳大利亚人。他不是真的,但他预先......他打开每个节目,我们将让他展示所有短片。是的,继续。

我一直回到这个可信度的问题。在一个充满AI生成内容的世界中,人们找到他们信任的信息来源、找到人和找到可靠的来源变得更加重要。我觉得这是LLM和AI永远无法拥有的东西,对吧?ChatGPT永远无法保证它会告诉你一些有用和有趣的东西,因为这意味着什么都没有,对吧?这是一个矩阵乘法。它取决于谁提示它等等。所以......

我一直,而这也是我在写博客时的情况,我一直都在寻找,好吧,哪些是可靠的人,他们会告诉我一些有用和有趣的信息,而不仅仅是告诉他们别人付钱让他们告诉他们的东西,不会......输入一个句子提示到LLM中,然后吐出一篇文章并把它贴到网上。

而对我来说,获得这种可信度非常重要。这就是为什么我发布方式的许多伦理原则都基于这样一个想法,即我希望人们信任我。我想做一些能够赢得人们信任的事情,这样

旅行,对吧?所以,对于每一代技术进步来说,人们总是想淘汰掉旅行社。现在他们想淘汰掉网页旅行社。我用谷歌航班搜索。很棒,对吧?如果你让我用一个代理来帮我做这件事,它可能会节省我,我的意思是,也许是15秒的打字时间。但我仍然想看看我的选择,然后说,是的,无论他们多么便宜,我都不坐那家航空公司的飞机。对于听众来说......继续。

对于听众来说,我认为你们两位都对Notebook LM相当看好。我们实际上采访了Notebook LM的创建者,他们内部实际上运行着两个内部代理。之所以需要这么长时间,是因为他们在内部运行着一个相当自主的代理循环。如果你选择那个特定的,关于代理循环的定义。你在谈论这方面的播客,对吧?是的,播客方面的事情。即将发布一个新版本,我们将在我们的会议上重点介绍。

这对我来说很有趣。比如,Notebook LM,我认为它是两个产品,对吧?一方面,它实际上是一个非常好的rag产品,对吧?你把一堆东西放进去,你可以运行搜索,它在这方面做得很好。这就是它一直以来的样子。然后他们添加了播客功能,有点像......这是一个噱头,对吧?但这个噱头让他们获得了关注,因为他们有一个很棒的产品,而没有人关注它。然后你添加了......

播客中难以置信的好的语音合成。就像,它,它,它是教训。它就像mid journey之类的教训。如果你能创作出人们可以在社交媒体上发布的东西,那么你就不必再费力地为你的作品做任何营销了。嗯,让我,让我再深入探讨一下Notebook LM,作为一个播客主持人。嗯,

作为一个噱头,这是有道理的。然后很明显,你知道,你深入研究它。它在边缘有一些问题。就像它所做的事情,所有LLM都会做的事情一样,就像,哦,我们想用结论来总结。我一直把它叫做八年级的读书报告论文问题,它必须有一个引言,然后,你知道,嗯,

但这是一种情况——因为我认为你在年末的文章中再次谈到了这一点,关于事物如何变得多模态以及你没有预料到的——比如视觉,尤其是音频。所以,至少在过去的一年中,取得的进展也许是你认为不会这么快到来。我不知道。我的意思是——

一年前,我们有一个非常好的视觉模型。我们有GPT-4 Vision,非常令人印象深刻。谷歌Gemini刚刚推出了Gemini 1.0,它具有视觉功能,但还没有人真正使用过它。就像谷歌没有

人们当时并没有认真对待Gemini。我觉得是1.5 Pro的时候,人们才意识到他们实际上克服了障碍,并且正在构建非常好的模型。是的,说实话,视频模型大多仍在使用相同的技巧,即把视频分成每秒一幅图像,然后把所有这些图像都放入上下文中。所以,我们可能不应该对长上下文模型加上视觉意味着视频开始被解决感到惊讶。当然,

你真正想要的是视频,你想能够同时处理音频和图像。我认为模型现在开始这样做。就像最初的Gemini 1.5 Pro最初忽略了音频。它只是做了每秒一帧的视频技巧。

据我所知,最新的模型实际上正在进行纯粹的多模态处理。但它打开的东西非常出色。就像他们作为12天OpenAI活动之一发布的ChatGPT iPhone应用程序功能一样,我确实可以在进行对话时打开我的摄像机,然后说,“嘿,这是什么树?”等等。而且它有效。据我所知,这只是每秒拍摄一张照片并将其输入模型。但是......

作为最终用户,你可以用它做的事情非常出色。就像对我来说,我认为大多数人还没有意识到你现在可以将视频直接流式传输到模型中,因为它只有几周的历史。但是哇,这对你可以用这些东西做的事情来说是一个巨大的提升。

是的,对于那些不太了解的人来说。我认为Gemini Flash的免费层允许你做一些事情,比如每秒或每分钟捕捉一张照片,并将其保留24/7,你可以提示它做任何事情。因此,你可以有效地拥有你自己的相机应用程序或监控应用程序,你只需提示它,它就会检测变化,它会检测......

你知道,警报或任何类似的东西,或者描述你的一天,你知道,而且它是免费的,我认为这也与之前的观点相符,即价格并没有下降很多。

即使你正在为此付费,就像我在博客文章中提到的那样,我计算了一下处理我照片收藏中68000张照片的成本是多少。对于每一张照片,只需生成一个标题。使用Gemini 1.5 Flash 8B,处理68000张图像将花费我1.68美元,这太疯狂了。

我的意思是,这没有道理。没有任何道理。就像每张图片四百分之一美分来生成标题。所以你可以理解为什么输入一天的视频甚至并不昂贵。是的,我会告诉你什么是昂贵的。这是另一个方向。所以我们在这里。我们正在讨论消费视频。

今年我们也取得了很多进展,比如今年最令人兴奋、最令人期待的发布之一就是Sora。我们实际上得到了Sora,而且不那么令人兴奋。我们做到了。然后是VO2,谷歌的Sora在三天后发布,并超越了它。哇。

就像Sora很令人兴奋,直到VO2发布,它才更好。总的来说,我觉得媒体或社交媒体对Sora很不公平,因为向世界发布的、普遍可用的Sora Lite是Sora的精简版本,对吧?我没有意识到这一点。你绝对是在比较VO2最精心挑选的版本,也就是他们在营销页面上发布的版本,与Sora最尴尬的版本。所以当然它看起来会很糟糕。

好吧,我可以访问VO2。我正在使用VO2测试版,我一直在研究它,并让它生成自行车上的鹈鹕等等。我完全相信VO2实际上更好。是Sora......那么完整的Sora很快就会发布吗?你知道吗?我们什么时候才能玩到它?没有人提到过任何事情。我认为基本的策略是让人们试用Sora Lite并获取信息。但要与好莱坞工作室一起开发Sora。这就是他们真正关心的。明白了。就像我们其他人一样......

反正也不知道该拿视频怎么办。对。我的意思是,这就是我的想法,我意识到对于生成图像和视频,就像我们已经有了几年的图像一样,我觉得它们还没有进入有天赋的艺术家群体。

就像很多人都在玩得很开心,并且正在创作和制作一些东西。这看起来很酷。但我想要那部电影,《万物皆有裂痕》,对吧?获得无数奥斯卡奖,一部非常棒的电影。这部电影的视觉特效团队只有五个人,其中一些人正在观看YouTube视频来弄清楚该怎么做。我对Sora和、和、

mid-journey之类的东西提出的一个大问题是,当这样的创意团队开始使用这些工具时会发生什么?我希望《万物皆有裂痕》背后的创意天才们。几年后,他们将能够用这些东西做什么?因为这对我来说真的很令人兴奋。这就是你让处于巅峰状态的艺术家使用这些新功能,然后看看他们能用这些功能做什么的地方。

我在这里知道一些东西,所以我应该提到那个团队实际上使用了Runway ML。在那部电影里?是的。我不知道有多少。所以夸大其词是有可能的。但是有一些人正在整合它,在他们的工作流程中生成视频,甚至在Sora之前。对,因为这不是那种事情,就像,好吧,明天我们将能够制作一部你用三句话就能提示的完整的两小时电影。它就像对于......的最初部分

电影中的视觉特效,就像如果你能得到那个三秒钟的片段,如果你能得到他们在《黑客帝国》中做的那个20秒钟的东西,它让每个人都为之疯狂,并且花费了一百万美元或其他什么来做,那就是他们现在可以填补的小片段,这可能已经存在了。

是的,实际上就像,我认为实际上拥有一个关于人们需要什么资产的分层视图,并让AI填充低价值资产,对吧?比如背景视频、背景音乐,你知道,有时还有音效。那

那可能更容易接受。也许还会改变你评估即将发布的内容的方式。因为人们倾向于在社交媒体上强调前景内容,主要角色内容。所以你真的关心一致性。当你真的被困扰的时候,例如,Sora搞砸了体操运动员翻跟斗的图像生成。

这太可怕了。这太可怕了。但对于背景人群来说,就像,对。谁在乎?就像,顺便说一句,我又一次,我很久以前是电影专业学生。就像那样开始的。像《勇敢的心》这样的电影,他们在田野里拍摄了10个人,然后电脑可以把它变成田野里的一千个人。就像那样一直都在边缘和背景中,那,

《指环王》,对吧?《指环王》电影是20多年前的。他们有那些巨大的战斗场景,那是非常早期的。我的意思是,你几乎可以称之为生成式AI方法,对吧?他们正在使用非常复杂的算法来模拟那些不同的战斗以及所有这些东西。

我知之甚少。我对电影制作基本上一无所知,所以我尽量不去评论它,但我非常想知道当这些工具开始被游戏顶尖的人使用时会发生什么。我会说这是一场文化战争,更多的是

正在这里进行的,而不是技术战争。大多数好莱坞人士无论如何都反对任何形式的AI。所以他们忙于战斗,而不是考虑如何采用它。这非常边缘化。我参加了旧金山的一次生成式AI视频创意黑客马拉松,AI积极的艺术家实际上与像我这样的技术专家会面,然后我们一起合作制作短片。这真的很好,我认为我将在未来的活动中举办一些这样的活动。

我认为我想让人们了解的一件事是,这是对去年的回顾,但有时用什么来展望未来也很有用。我不知道你有没有什么。我还想指出,中国的模型在这里取得了很大的进展。Hai Luo和Kling以及上帝知道还有谁在视频领域也取得了很大的进展。我认为实际上中国令人惊讶地领先于

至少是开放权重,但也只是特定形式的视频生成。如果在一个我们通常认为没有强大电影产业的国家兴起了一个使用这些工具的电影产业,那会不会很有趣?就像这将是一个关于这个的迷人的角度。同意。我。哦,对不起。继续。只是为了让大家了解,只是为了让大家了解。嘿,Jen,就像,有一个,

视频化身公司的类别,它们并不专门专门从事通用视频,它们只做说话的头,比方说,HeyGen做得非常好,Swyx,你知道那就是我一直在用的,对吧?就像我有,我有,是的,对,所以如果你看到我最近的一些YouTube视频和类似的东西,因为HeyGen的优点是,我不想要机器人声音,所以我每天都会剪辑我的片段

然后我将它放入HeyGen,并使用我训练过的化身。它只做唇形同步。所以它看起来并不完全是无法超越的恐怖谷,但如果你们不寻找它,它就足够好了,它只是我坐在那里做我的节目片段。是的。所以,顺便说一句,HeyGen,向他们致敬。

所以我会,在展望未来、回顾2024年、展望2025年的趋势方面,他们基本上会指出这一点。Meta试图推出AI网红,但惨遭失败,因为他们做得太糟糕了。但在某个时候,将会有越来越多的AI网红,不是像Simon那样,而是他们不是人类。是的。

那些做得好的,我一直觉得他们做得好的原因是因为这是一个噱头。这很新颖,很有趣。就像去年的AI Seinfeld一样,Twitch直播。如果你只是唯一一个或少数几个这样做的人,你就会吸引观众,因为它是一件有趣的新事物。但我不知道这是否会在长期内持续下去。我会告诉你们......

因为我进行过讨论,我不能说出公司名称或其他任何东西,所以考虑一下这个工作流程。就像,现在我们都知道在TikTok和Instagram上,像举起手机对着你的脸,做像在我的车里录视频或边走边说之类的视频,你知道,这很常见。但如果你想制作专业的说话头视频,你仍然必须坐在摄像机前。你仍然必须做灯光。你仍然必须进行视频编辑,而如果你只需要录制......

我现在正在说的话,最后30秒,如果你把它剪辑成MP3,并且你有一个足够好的化身,那么你就可以把这个化身放在时代广场、海滩或任何地方。所以,再次强调,对于创作者来说,我认为Simon即将出现一些东西的原因是,它不会......

我认为这并不是说,哦,我们将让AI化身接管。这将是那些能够消除工作流程中的另一部分并简化它的东西之一。我完全赞成。我一直都很喜欢这个。我喜欢工具,帮助人类做更多事情、做更有抱负的事情的工具。我一直都赞成,就像那样。这就是我对这个领域的兴奋之处。

是的,我们正在研究为我的播客创建一个。我们有这个人,查理。他是澳大利亚人。他不是真的,但他主持每一场演出,我们将让他介绍所有短片。是的,继续。

我一直反复思考的事情是可信度的问题。就像在一个充满AI生成内容的世界中,等等,人们找到他们信任的信息来源、找到人和找到可靠来源变得更加重要。我觉得这是LLM和AI永远无法拥有的东西,那就是可信度,对吧?ChatGPT永远无法凭借告诉你一些有用和有趣的事情来维护自己的声誉,因为

那毫无意义,对吧?这是一个矩阵乘法。这取决于谁提出了提示,等等。所以我总是,当我在写博客的时候也是这样,我一直在寻找,好吧,哪些是可靠的人,他们会告诉我一些有用、有趣的信息,而不会仅仅告诉我别人付钱让他们告诉他们的东西,不会把一句提示输入LLM然后吐出一篇文章并把它贴到网上。对我来说......

赢得这种可信度非常重要。这就是为什么我发布内容的方式的许多道德准则都是基于我希望人们信任我的想法。我想做一些能够赢得人们信任的事情,这样他们就会来找我获取信息,作为可靠的来源。对于我咨询的来源也是如此。所以,我已经思考了很长时间关于这种可信度关注的事情了。是的。你可以分层或构建可信度或将其分解。就像,那么,

我想提出的一件事,我并不是说你不应该

同意这一点或接受这一点,那就是你可以使用AI来生成不同的变体,然后你选择你作为最后的最后一英里的人,你选择最后的输出,然后你将你的可信度印记放在上面。所有内容都是人工审核的,而不是人工创作的。就是这样。如果你发布了一些东西,你需要能够为发布它而感到自豪。你需要能够说,我会把我的名字放在上面。我会把我的可信度附加到这件事上。如果你愿意这样做,那就太好了。

对于创作者来说,这非常重要,因为从空白状态开始与从五个不同的变体中进行选择之间存在根本的不对称性。对。而且你刚才说的关键一点是,如果我所做的一切,如果我所有的文字都是由LLM生成的,如果声音是由LLM生成的,如果视频也是由LLM生成的,那么我就什么也没做,对吧?但如果其中一两个......

你走捷径,但这仍然是我愿意签字的。就像,我觉得这就是我觉得人们正在转向的地方,就像,这也许是可以接受的。这就是我一直推动定义的地方。我喜欢“垃圾”这个词,我一直推动将“垃圾”定义为既未被请求也未被审核的AI生成内容。未经审核这一点非常重要。就像,将某些东西从“垃圾”提升到非“垃圾”的东西是,如果一个

人已经审核过它并说,你知道吗,这实际上值得其他人的时间。再说一次,我愿意将我的可信度附加到它上面,并说,嘿,这是值得的。这是它的策展和编辑部分,无论使用什么工具来走捷径,正如Swyx所说,在不同的编辑或不同的剪辑之间进行选择,但最终,如果有一个策展思想或编辑思想在背后。我想在开始结束之前插入这一点。

其中一件事,回到你年末的文章,我一直都在谈论的一件事是,当你谈到LLM越来越难用时。哇,是的。你说大多数用户都被扔到了深水区。默认的LLM聊天UI就像带新手电脑用户进入Linux终端并期望他们弄清楚一切一样。我的意思是,这实际上是回到了命令行。命令行被GUI界面击败了,并且

这就是我一直都在谈论的事情,就像,这不可能是用户界面。我们现在拥有的东西不可能是最终结果。你是否看到任何关于GUI时刻的暗示或种子?

对于LLM界面?我的意思是,它必须发生。它绝对必须发生。这些东西的可用性正在变成一场危机。我们至少在一些小方向上看到了一些非常有趣的创新,就像OpenAI刚刚推出的ChatGPT Canvas一样。

这至少比仅仅是聊天和回复更有趣一些。你知道,你可以探索与LLM合作的空间,你们都在同一个文档上工作。这对我来说很有意义。就像感觉真的很聪明。最好的东西之一仍然是,是谁做了那个UI,你可以,他们有一个绘图UI,你可以绘制一个界面并点击它。是的,TLDraw,他们的“让它成为现实”的东西。那太棒了。

太棒了,绝对太棒了,就像如何与这些模型交互的替代愿景。因为是的,而且那是,你知道,所以我感觉那里有如此多的创新空间,而且它正在开始发生。就像,就像,我觉得大多数人都明白,我们需要在界面方面做得更好,这些界面既可以帮助解释正在发生的事情,也可以为人们提供更好的使用模型的工具。我本来想说,我想

更深入地探讨这个问题,因为想想GUI背后的概念性想法,它不是在命令行中键入,打开word.exe,而是你点击一个图标,对吧?所以那是,

所以抽象掉某种程度上,再次强调,编程方面的东西,就像,你知道,一个孩子可以点击iPad并打开一个程序,对吧?现在,在我看来,我们与LLM交互的方式存在的问题是,它有点像,你知道,一个笨机器人,就像你戳它,它就跑到这里来。但是不,我想去那里,所以你这样戳它,你无法完全正确地做到这一点。就像,我们可以从当前正在发生的事情中抽象出什么?

这使得它更精细,更容易获得更精确的结果。你明白我的意思吗?是的。这是我从去年开始关注的另一个趋势,我认为这非常有趣。这是提示驱动的UI开发。基本上,这是Claude Artifacts最先做到这一点的模式。你输入一个提示,它就会说,哦,我应该通过为你编写一个自定义的HTML和JavaScript应用程序来回答这个问题,这个应用程序会做某些事情。

当你想到这一点,从那以后,事实证明这很容易,对吧?每个像样的LLM都可以生成可以做一些有用的事情的HTML和JavaScript。所以我们实际上有了一种替代的交互方式,他们可以用一个交互式自定义界面来响应你的提示,你可以使用这个界面。

人们还没有完全将这些东西重新连接起来。理想情况下,我希望LLM能够问我一个问题,它会为我构建一个自定义的小型UI,用于那个问题,然后它会看到我如何与之交互。我不知道为什么,但这与我们现在的情况只有一步之遥。但这感觉......

就像一个显而易见的下一步,就像一个LLM,为什么它应该,为什么你应该只用文本进行交流,当它可以即时构建界面,让你选择地图上的一个点或上下移动滑块时。我一直说旋钮和刻度盘。我们可以做到这一点。LLM可以构建,Claude Artifacts会为你构建一个旋钮和刻度盘界面。但目前他们还没有闭环。当你旋转这些旋钮时,Claude看不到你在做什么。

他们会闭环的。我很惊讶他们还没有这样做。所以,是的,我认为那里有如此多的创新空间,并且有如此多的空间来使用该模型做有趣的事情,其中LLM,你可以用HTML、JavaScript和SVG表示的任何东西,几乎所有东西,现在都可以成为持续对话的一部分。是的,我会说......

到目前为止,我见过的最好的执行版本是Bolt,你可以在其中直接键入,制作Spotify克隆,制作Airbnb克隆,它实际上会为你零样本制作一个漂亮的界面。你看到了,现在有一个基准测试了。Ella Marina的人现在有一个基准测试,那就是零样本应用程序生成,因为所有模型都可以做到这一点。我已经开始弄清楚我如何为我自己的项目构建我自己的版本,因为我认为在六个月内,

我认为这将只是一个预期的功能。就像如果你有一个Web应用程序,为什么你没有一个东西,哦,看,你可以添加一个自定义的,就像我的数据集数据探索项目一样,我希望你能够通过提示来创建仪表板。你说,哦,我需要一个饼图和一个条形图,并将它们放在一起,然后有一个表单,提交表单会将一行插入我的数据库表中。所有这些现在都是可行的。这甚至并不特别困难,这

非常奇怪,这些东西现在很容易。我认为对于普通观众来说,这就是我想强调的,软件创建正变得越来越容易。Gemini现在可以在Gmail和Google Sheets中使用。我不再编写我自己的Google Sheets公式了。我只是告诉Gemini去做。所以我认为这些是......我基本上有点不同意你关于LMS越来越难用的说法。就像,是的,我们公开了更多功能,但是......

但它们处于次要形式,例如在ChatGPT中使用Canvas,例如在Excel表格或Google表格中使用Gemini。就像,是的,我们正在......不,不,不,不。这些是让它更难用的东西。

因为问题在于,对于每一个这样的功能,它们都很棒。如果你了解这个功能的边缘情况,例如,在 Google Gemini Excel 公式中,我可以让它做一些事情,但我无法让它去读取网页。你可能无法让它读取网页,对吧?但是它有一些能做的事情,也有一些不能做的事情,这些事情完全没有记录在案。如果你问它能做什么和不能做什么,它回答这些问题很糟糕。所以我最喜欢的例子是 Clawed Artifacts。

你无法构建一个可以访问其他地方 API 的 Clawed artifact。

因为该 iframe 上的 cause headers 会阻止访问 CDNJS 之外的任何内容。所以,祝你好运,作为最终用户学习 cause headers 以了解原因。我看到有人说,“哦,这太垃圾了”。我尝试构建一个可以运行提示的 artifact,但它失败了,因为 Claude 没有公开具有 cause headers 的 API。所有这些东西都非常奇怪和复杂。是的,就像......

我们添加的工具越多,真正理解其全部功能所需的专业知识就越多。所以,我不会说它像......问题实际上归结为理解所有可能性的全部范围需要什么?老实说,随着时间的推移,这只会变得越来越复杂。是的。我还想谈论一个我认为你非常支持的话题,我们也稍微谈到过,那就是本地 LLMs。

以及在你的桌面上运行 AI 应用程序,我觉得你是一个很多东西的早期采用者。我在过去一年中对此有了一个有趣的体验。六个月前,我几乎完全失去了兴趣。原因是六个月前,你能运行的最好的本地模型......

根本没有使用它们的意义,因为最好的托管模型要好得多。就像,如果我能访问 Claude 3.5 Sonnet 的 API,我根本不会选择在我的笔记本电脑上运行模型。它们根本无法相比。这种情况在......

基本上在过去三个月中发生了变化,因为本地模型有了这种改变游戏规则的功能,现在我可以运行其中一些本地模型,它们不如 Claude 3.5 Sonnet 好,但它们并没有差到我不值得使用的地步。另一个持续存在的问题是我只有 64GB 的 RAM。如果你运行像 Lama 370B 这样的模型,我的大部分 RAM 就没了。所以我必须关闭 Firefox 选项卡、Chrome 和 VS Code 窗口才能运行它。

但这又让我感兴趣了。效率的提高使得,如果你把我扔到一个荒岛上,只有我的笔记本电脑,我使用这些本地模型也会非常高效。这非常令人兴奋。如果这些趋势继续下去,而且......

就像,我认为我下一台笔记本电脑,当我购买时,将拥有两倍的 RAM,届时我或许可以运行几乎顶级级别的开放权重模型,并且仍然能够将它用作计算机。英伟达刚刚发布了他们 3000 美元 128GB 的巨型产品。这是一个相当不错的价格。你知道,那是......你会买吗?包括定制操作系统?是的。

如果我找到一份工作,如果我有足够的收入来证明花 3000 美元购买它,那么是的。让我们发起一个 GoFundMe 来为 Simon 买一个。来吧。你知道你随时都可以找到工作。这纯粹是可自由支配的。我想要一份工作,这份工作付钱给我做我现在正在做的事情,并且不告诉我该做什么其他事情。这就是挑战。我认为 Ethan Mollick 做得非常好。

无论他做什么。但是,基本上,我还想介绍一下,你知道,不仅仅是本地模型,还有 Apple intelligence 存在于每台 Mac 机器上。你似乎持怀疑态度。这很垃圾。Apple intelligence 太糟糕了。它只做一件事做得很好。

哦,是的,那是什么?它总结通知。有时它很有趣。你确定它做得很好吗?另外,顺便说一句,从普通人的角度来看,Apple 没有说明何时使用它。就像,每个人都升级他们的东西,然后就像,“好吧,现在你有了 Apple Intelligence”,你永远不知道何时再次使用它。

哦,是的。你查阅 Apple 文档,也就是 MKBHD。关于 Apple intelligence 我要说的一件事是,它如此令人失望的原因之一是模型太弱了。但是现在,像 Lama 3B 这样的模型,在一个 2GB 的文件中,如此出色。我认为给 Apple 六个月的时间,希望它们能够赶上小型模型的最新技术水平。然后它可能会变得更有意思。是的。

无论如何,这是第一年。就像 iPhone 的第一年一样,可能并没有那么成功。然后在第三年,他们有了 App Store。所以我认为应该给它一些时间。我认为 Chrome 今年也在 Chrome 中发布了 Gemini Nano,这意味着每个......

每个 Web 应用程序都将免费访问一个直接在浏览器中发布的本地模型,这很有趣。然后我认为我还想开放讨论,例如,我们中的任何人,我们采用了哪些 AI 应用程序,我们真的推荐哪些?因为这些都是,你知道,在浏览器上运行的应用程序,或者在我们应该......

其他人应该尝试的本地运行的应用程序,对吧?我觉得这是在年初很有帮助的一件事。好的,对于运行本地模型,我的首选是,首先,在 iPhone 上,有一个叫做 MLC Chat 的东西,它可以工作,而且易于安装,它运行 Lama 3B,而且非常有趣。就像,它不一定是足够强大的模型,以至于我将它用于真实的事情。但我现在的绝活是,我让我的手机写一个 Netflix 圣诞电影的情节大纲,比如......

爱上了瑞典国王等等。它做得很好,并且想出了电影的双关语名称。这非常有趣。在我的笔记本电脑上,最近我一直在大量使用 Ollama,因为 Ollama 团队非常擅长寻找好的模型,并将它们打包并使其正常工作。它为你提供了一个 API。我的小型 LLM 命令行工具有一个插件可以与 Ollama 通信,效果非常好。所以这是我的......Ollama 是......

我认为运行本地模型最简单的入门方法。如果你想要一个不错的用户界面,LM Studio 我认为是最好的用户界面。它不是开源的。它很好。值得尝试。我最近一直在尝试的另一个是......

它叫什么?Open web UI 还是什么。UI 太棒了。如果你运行了 Ollama 并启动了这个东西,它会发现 Ollama 并为你提供一个 Ollama 模型的界面。这做得非常好。这是我目前最喜欢的这些东西的开源 UI。但是,是的,所以有很多不错的选择。你确实需要很多磁盘空间。对于实际上值得使用的 3B 模型,模型从 2GB 开始。

在我看来,真正令人印象深刻的模型往往在 20 到 30GB 的范围内。是的。我认为我在这里的挣扎在于,我并不是一个在本地运行东西的绝对主义者。就像,我很乐意调用 API。我也是。好吧,是的。我这样做是为了玩。这是我的研究兴趣,是的。当人们兴奋起来......回答你自己的问题。

比如,给我们更多你想要的应用程序......是的,有时就像,推荐应用程序只是很好。所以我现在使用 Super Whisperer。我尝试过 Whisper Flow,但对我来说效果并不好。Super Whisperer 是其中之一,它基本上取代了打字。就像,你应该大部分时间都说话,尤其是在做任何长篇内容时。我按住 Caps Lock 并说话。然后当我完成后,我松开它,它使用......这不仅仅是写下你的成绩单,因为我......

总是发出嗯嗯啊啊的声音。我总是重述自己。但我使用 GPT-4 来改写。这就是这些人正在做的事情。他们都在做某种最先进的 ASR,自动语音识别,然后是 LLM 来改写。然后我认为我还建议人们查看 Rosebud 用于日记记录。我认为用于心理健康的 AI 尚未得到充分探索,这并不是因为我们试图构建 AI 治疗师。我认为治疗师非常讨厌那样。

你永远不会达到治疗师的水平。这回到了我们讨论的人性问题。在某种程度上,某些事情和学科需要人情味。当然。但人情味每小时要花我 300 美元。是的。对吧?而这个东西每月 3 美元。所以对于某些人来说,这会奏效。我认为现在尝试所有这些东西都很便宜。

我要快速推荐一个应用程序。Mac Whisper 是我最喜欢的桌面应用程序。我喜欢这个东西。是的,是的,是的。

它运行 Whisper,你可以做一些事情,例如,你可以粘贴 YouTube 视频的 URL,它会提取音频并为你提供成绩单。所以我现在就是这样观看 YouTube 的,我把它粘贴到 MacWhisper 中,然后点击复制并粘贴到 Claude 中,然后我使用 Claude Web 应用程序来做事情。但 MacWhisper,它可以使用 MP3 文件。每次我参加播客时,我都将 MP3 导入 MacWhisper,然后将成绩单导入 Claude 并说,我应该在节目说明中写什么?它会吐出一个项目符号列表,上面写着,“哦,你提到了,比如......

你应该链接到的数据集,诸如此类的事情。诸如此类的事情。这就是 Mac Whisper。老实说,我每天使用它好几次。就像它,它很棒。是的。我实际上,我要说一个非常非常基本的,再次回到我的工作流程,但我们目前正在 Riverside 上录制。Riverside 是一个用于录制视频、音频内容的绝佳工具,就像我们现在正在做的一样。

但我总是用这个作为例子来告诉人们,当他们说,“好吧,AI 会为我做什么?”当我第一次开始使用 Riverside 时,就像我们现在正在录制三个不同的频道一样,对吧?你们正在本地录制。所以有三个音频文件,三个视频文件。然后当我第一次开始使用 Riverside 时,你必须将三个轨道导入 Adobe 然后进行编辑。好的,现在我们关注 Simon。现在我们关注 Swix。现在我们关注 Brian。现在我们做所有三个。

然后有一天,一个工具弹出一个窗口,上面写着,“点击此按钮”,它是智能编辑。然后 AI 确定,好的,Simon 已经说了 30 分钟,所以转到他的全景镜头。Brian 现在正在说话,或者有重叠对话,所以让我们显示所有三个说话人的头像。只需一个按钮......

对于我发布的任何内容,它为我节省了三四个小时的工作。对我来说,这就像,再次,如果普通人正在收听。Riverside 现在有这个功能了。是的。是的。该死。我不使用它。哦,这听起来太棒了。我仍然使用人工编辑。它发布的那一天,我跑遍了整个房子,告诉我的妻子,告诉任何愿意听的人,你们不知道,我刚刚节省了三个小时,因为他们有一个新功能。就像,那是......

这太令人兴奋了。Brian 现在基本上喜极而泣了。好吧,让我们稍微结束一下。Simon,我还有两三个问题。我们可以快速回答。好的。我的节目之一,我的节目中的一件事是,它有点像大硅谷。所以它有点像谁上升谁下降的赛马等等。就你感兴趣的程度而言,OpenAI 作为一家 2025 年的公司,你

是否看到挑战即将到来?你是看跌还是看涨?我几乎是在做 CNBC 那样的节目。但是,你今年对 OpenAI 的感觉如何?我认为他们有点麻烦。他们似乎失去了很多人才。就像他们正在失去,如果没有 O3,他们会有大麻烦,因为他们会失去那种顶尖的地位。我认为 O3 又让他们恢复了元气。但 2024 年的一个重要故事是 OpenAI 最初是明确的领导者,而

现在 Google Gemini 非常好。Google Gemini 度过了辉煌的一年。Anthropic Claude Claude 3.5 仍然是我个人最喜欢的模型。这感觉很值得注意,就像 OpenAI 从......一年前没有人会争辩说他们不是......这个领域中的领导者,而今天,他们仍然做得很好,但他们不像以前那样遥遥领先了。