We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Apple’s Big Reveals, OpenAI’s Multi-Step Models, and Firefly Does Video

Apple’s Big Reveals, OpenAI’s Multi-Step Models, and Firefly Does Video

2024/9/14
logo of podcast a16z Podcast

a16z Podcast

AI Deep Dive AI Chapters Transcript
People
J
Justine Moore
O
Olivia Moore
Topics
Olivia Moore:Apple Intelligence在媒体搜索和内容创建方面取得了显著进步,但Siri语音助手仍需改进。一些功能此前已存在于独立应用中,并非革命性突破。通话录音和转录功能满足了特定用户群体的需求,但其质量有待提高。苹果公司开始认真对待内部开发AI原生功能,这可能会对一些初创公司造成一定影响,但对更具雄心的公司影响有限。 Justine Moore:OpenAI的新模型在多步骤推理方面取得了重大进展,这将促进教育类应用的开发,并改变人们的学习方式。多项选择题并不能有效评估学生的真实理解,AI技术将改变数学教学方式。不同公司在AI模型开发方面存在差异,一些专注于通用智能,另一些专注于情商。目前尚缺乏对情商的衡量标准,但用户自行创建了非正式衡量标准。AI模型本身并非产品,而是嵌入在产品中。 Olivia Moore:Spotify Daily是AI模型成功应用于产品的案例,其成功在于其非侵入式且令人愉悦的用户体验,而不是其模型的准确性。产品的用户体验、易用性以及社交功能等因素,对于产品的成功至关重要。不同领域中,最佳模型与可用模型之间的差距有所不同。对于使用开源模型的公司来说,微调模型的重要性取决于具体的产品和用例。在企业领域,微调模型的需求可能更高。Adobe Firefly在将AI集成到现有产品方面做得很好,其视频模型专注于专业视频创作者。Adobe可能会在其产品中集成其他模型,这将为初创公司提供新的分销机会。Adobe允许外部公司在其产品上构建插件,这为初创公司创造了机会。Adobe展示的模型更侧重于对现有内容的改进,而非从零开始创作。

Deep Dive

Chapters
Apple introduced several AI-powered features in their latest iOS update, including visual intelligence, enhanced photo editing, and advanced media search capabilities.
  • Apple Intelligence is now native to the iOS Operating System.
  • Features like visual intelligence and enhanced photo editing were previously available via standalone apps.
  • The most game-changing feature is the advanced media search, allowing natural language queries across photos and videos.

Shownotes Transcript

它并非人类策展人可能做的事情,但奇怪之处几乎是特色而非缺陷。

苹果感觉像是唯一一家能够做到这一点的公司,因为他们在各个方面都拥有某种许可和访问权限。

所有应用程序都是我们的模型,它基于非常有限的数据进行训练,例如真正能够制作该图像或视频的最佳模型。

从投资者的角度来看,我不必为初创公司担心。

本周科技界大事频发。首先,苹果公司在库比蒂诺举行了年度秋季发布会,发布了新款 iPhone、iPad 和 Apple Watch 硬件型号,以及苹果人工智能的重大进步。我们还看到了一些新模型的发布,包括 OpenAI 的一个专注于多步推理的新模型,以及 Adobe 对其新款 Firefly 视频模型的抢先预览。

因此,在今天的节目中,我们将深入探讨所有这些内容以及更多信息,包括 Spotify 的新 AI 功能(周同比增长 70% 的功能关注度)、IQ 与 EQ 基准测试,当然还有所有这些信号预示着什么。本期节目于周四下午 12 点在我们 a16z 办公室录制,对话嘉宾为我们的合伙人 Justine 和 Olivia Moore。如果您喜欢这种类型的节目,或者我们对最新技术的深入分析,请分享本期节目并标记 #a16z。

让我们开始吧。提醒一下,此处内容仅供参考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且并非针对 a16z 基金的任何投资者或潜在投资者。请注意,a16z 及其关联公司可能会继续投资本文中讨论的公司。有关更多详细信息,包括我们投资的链接,请访问 a16z.com/disclosures。

本周早些时候,周一,苹果发布了一系列新产品,包括 iPhone 15、Apple Watch Series 10,还有 Apple Intelligence,对吧?所以有很多硬件,但看起来他们也在升级其软件堆栈。Olivia,你提前获得了访问权限,对吧?

是的,它实际上对任何人都开放,但你必须经历一系列步骤。因此,对于这些新的操作系统,他们会提供所谓的开发者早期访问权限。但如果你在手机上稍微搜索一下,任何人都可以在比其他人提前几周下载并获得访问权限。我认为 iOS 18 的访问权限应该会在 9 月 16 日向所有 iPhone 15 或 16 用户开放。

好的。所以你已经玩了大约两周了。Apple Intelligence,是的,你发现了什么?有哪些新功能?也许先把它们分解一下?然后,你认为哪些方面真正令人鼓舞,可能会改变世界?哪些方面可能让你觉得还不够完善?

Apple Intelligence 是一套新的 AI 驱动的功能,这些功能是 iOS 操作系统的原生功能。因此,它们已经内置到苹果应用程序和手机本身中。我们听说他们以后可能会收费,但至少现在,对于所有拥有 iOS 17 的用户来说都是免费的,这真的很令人兴奋。

老实说,很多功能都是几年来通过必须下载的独立应用程序(可能还需要付费)才能获得的功能。一个典型的例子是他们所谓的“视觉智能”,实际上就是上传一张狗的照片,然后获得关于这只狗可能是什么品种的报告。我们还可以上传植物的照片,这样就不需要单独的应用程序了。

但这真的是改变游戏规则的吗?可能不是。同样,他们还有一个新的照片编辑器,你可以在其中智能地识别你漂亮手机背景中的人。一键删除,这很有用。是的。它比 Adobe 和其他产品提供的更强大的工具好多少?我认为可能不会。

我认为我们俩都认为最具变革性和最令人兴奋的功能实际上是围绕媒体搜索展开的,因为每个人都在手机上保存了数百张,甚至在我们的例子中是数千张或数万张照片和视频。我认为 iOS 一直在变得越来越聪明,试图识别人物或地点,但这确实是一个巨大的进步。现在,你可以使用自然语言进行搜索,可以通过人物姓名或描述、地点或物体进行搜索。它不仅搜索照片,还搜索视频。

是的,我妈妈本周早些时候给我发短信问,你几年前在缅因州拍摄的我们划皮划艇时海豹探出头来的视频还在吗?我能够使用新的 Apple Intelligence……

来搜索并找到它。

是的,我当时花了大约 30 秒的时间才在一个两分钟的视频中找到它,而在此之前,我根本找不到它。而这次我搜索了“缅因州海豹”,它立即找到了视频。

是的,太棒了。我的意思是,我想开玩笑说,我们所有朋友的手机里有多少千兆字节或太字节的食物照片,我们永远都看不到了。所以听起来这可能是最有用的功能……

是的,它还可以让你用新的方式创建这些媒体。每个人都记得那些有时令人渴望,有时又很迷人的回忆视频,它试图提醒你一年前或两年前做过的事情,或者你进行的旅行。现在,你实际上可以使用自然语言输入,例如“制作我所有在海滩上玩乐时光的电影”,它就会做到这一点。

所以我认为这是苹果独具优势的事情,因为他们是拥有所有这些媒体的人,这非常令人兴奋。对我来说,一个可能令人失望的地方,或者感觉尚未实现的地方,是 Siri 的真正 AI 原生升级。感觉上,特别是自从例如 ChatGPT 语音发布以来,Siri 感觉如此过时,就像语音助手一样。

他们对 Siri 做了一些改进,例如她能够更好地理解你在中间打断问题的情况。但它仍然不是面向行动的。我希望能够说,“Siri,叫一辆 Uber 到这个地址”,让她做到这一点。苹果感觉像是唯一一家能够做到这一点的公司,因为他们拥有某种许可……

以及所有应用程序的访问权限。我的意思是,如果你喜欢 Siri,它几乎只会在你不想让 Siri 出现的时候出现。但还有一些其他的更新,对吧?通知摘要,也许只有在你的手机上才能看到的升级,因为你拥有 root 访问权限。

是的,你对这也许是这些设备上 AI 原生软件的下一个演变有什么想法吗?苹果什么时候会推出这样的产品?你对它可能是什么样子有什么想法吗?

我认为这次发布在几个方面都是一个巨大的进步。他们本可以很久以前就完成对象移除或更好的照片功能,但他们没有这样做。我认为很多人觉得他们只是选择不这样做。

他们只是选择让第三方应用程序生态系统来做这些事情。但我认为这些发布表明,他们认真对待在内部完成其中一些事情,并使其成为 iOS 的原生功能。

生态系统。我个人非常好奇他们是否会在手机的最初用途——通话方面做更多的事情。从历史上看,你几乎无法在通话方面做任何事情,对吧?例如,你拨打电话,也许你可以合并通话,也许你可以添加某人,但他们不想过多地触碰它。我认为新的通话录音和转录功能非常疯狂,因为从历史上看,他们在拨打电话时让录音变得不可能。而现在他们实际上允许,嘿,我们将有一个 AI 副驾驶,它会在开始时发出一点声音,它会倾听你的通话,最终你可能会看到他们说,嘿,这次通话的要点是安排一次会议,然后在你的苹果日历中,它应该能够做到这一点并发送……

邀请函给某人,是的。所以现在如果你开始通话,你可以在左上角点击一个按钮来录音,它会播放两到三秒钟的提示音,告诉对方正在录音。但一旦通话结束,它会将转录保存到你的 Apple Notes 中,以及一些要点。我认为质量还可以,但不是很好。

我想这会随着时间的推移而改进。但同样,现在有很多人和很多应用程序拥有大量用户,并且从一些看似很小的事情中赚取很多钱,例如老年人通过电话进行医生预约,他们需要为亲属录制和转录通话,这实际上产生了惊人的数量。所以我认为这个新的更新表明他们可能正在朝着一些这样的用例发展,并让消费者更容易地使用它们。

是的,也许总结一下你的观点。有这么多第三方开发者从历史上创建了这些应用程序。我的意思是,你提到了检测植物的能力,或者像 Magic 或 Data.ai 这样的 AI,你可以看到它们非常庞大,是的,这就是它们的单一用例。

但它有效。人们需要它。这些公司会发生什么?这预示着苹果决定利用这一点,也许更少地拥有这个开放的第三方生态系统吗?

是的,我认为这引发了一个有趣的问题,即消费产品的意义是什么,例如它只是一个实用程序,在这种情况下,苹果可能能够取代它吗?或者它会成为一种社交产品或社区吗?假设有一个独立的植物应用程序,然后还有一个苹果植物识别器。

如果你已经上传了你想要存储的所有植物照片,你可能会继续使用独立的植物应用程序。现在,你在全国各地都有喜欢类似植物的朋友,他们上传并评论,就像它变成了一个植物爱好者的聚集地一样,这听起来很荒谬。但这些垂直社交网络拥有庞大的社区。所以我认为独立的消费者开发者仍然有巨大的机会。问题只是如何超越纯粹的实用程序,让用户因为其他原因而继续使用该产品,而这些原因是他们可以从苹果那里获得的。

是的,我同意。我认为从投资者的角度来看,我不必为初创公司担心。我认为苹果这样做也是因为他们将构建这些功能最实用、最基本的版本,而且它们不会非常复杂。不会构建出具有大量工作流程和大量自定义选项的版本。所以,是的,他们可能会扼杀一些作为现金流生成副项目运行的独立应用程序,但我认为它们对一些在产品范围方面更有雄心的风险投资支持公司来说,风险并不大。

如果我们考虑实用性,对吧,驱动实用性的一种方法是通过更好的模型。所以也许我们应该谈谈本周发布的一些新模型。我先说说 OpenAI,截至我们录制节目的今天,他们发布了他们的新 O1 模型,这些模型专注于多步推理,而不仅仅是直接回答。

事实上,我认为该模型甚至会说,“我思考了这个问题 32 秒”,他们发布的文章称,该模型在具有挑战性的基准任务(物理、化学和生物学)上的表现与博士生相似,并且它在数学编码方面表现出色。

他们还表示,在国际数学奥林匹克竞赛的资格考试中,GPT-4(之前的模型)只快速解决了 13% 的问题,而他们刚刚发布的推理模型的得分达到了 83%。这是一个巨大的差异。而这实际上是很多研究人员一直在谈论的事情,对吧?我认为下一步是……你对这个模型的初步想法是什么?也许它代表着什么?

你看到了什么?是的,这是一个巨大的进步,人们期待已久。我认为,即使是像物理、生物、化学这样的复杂学科,我们也看到旧模型甚至在基本的推理方面都难以应付。我们在“草莓里有多少小时”这个问题上看到了这一点……

是的,任何……

基本上,这些模型是下一个标记预测器。因此,它们并不一定像逻辑地思考那样,“哦,我预测这应该是答案”。

但如果我真正深入思考下一步,我是否应该检查草莓里有多少小时?是否有其他数据库可以搜索?人类会怎么做才能验证和确认他们对问题的任何解决方案?我认为在过去一年半左右的时间里,研究人员发现你可以通过提示来做到这一点。

例如,当你问一个问题时,说“一步一步地思考这个问题并解释你的推理”。而模型在基本问题上的答案会与你直接提问时得到的结果不同。所以我认为将这一点融入模型本身非常强大。因此,它们是自我反思的,而不是要求用户知道如何提示像链式推理这样的东西。

我同意。我认为这实际上对于消费者技术等类别来说非常令人兴奋,因为实际上很大一部分,甚至可以说是大多数使用 .edu 电子邮件地址的人都在使用 ChatGPT 来生成论文。

但从历史上看,它主要限于撰写历史之类的任务,因为正如你所说,这些模型在数学、科学以及其他需要更深入、更复杂推理的学科方面非常糟糕。因此,我们看到很多产品由于模型的局限性,只能做到拍摄我的数学作业照片然后在网上查找答案,这还不错。很多公司将因此赚很多钱。但我认为我们现在有机会构建更深入的应用产品,改变人们的学习方式,因为这些模型能够正确地推理步骤并向用户解释。

当你今天使用它时,你可以看到思考某事的步骤。所以默认情况下,它不会向你展示所有步骤。但如果你想或需要查看步骤(例如用于学习过程),你可以获得它们。

我在此之前用经典的咨询问题测试了它:多少个高尔夫球可以装进 747 飞机?新模型完全正确地回答了这个问题。在 23 秒内,我测试了四次。旧模型的答案偏差了两到三倍,而且生成答案的时间更长,所以规模很小,但结果确实很有前景。

这一点很重要。我认为你最近在推特上发布了一些关于这个角度或声音的内容。很多人都在强烈反对这项技术被用于课堂。

我认为你有一个非常有趣的观点,那就是,好吧,这实际上迫使教师以一种可以利用这项技术的方式进行教学。你必须思考并发展推理能力。这很有趣。

我发现一个在 TikTok 上疯传的视频,展示了学生们有很多新的 Chrome 扩展程序,你可以将它连接到 Canvas 或你用来做测验和作业的任何系统,你只需截取问题的屏幕截图,它就会直接调出答案并告诉你答案是 A、B、C 还是 D。在某些方面,这就像作弊一样。

你真的想花钱让你的孩子上大学去做这些吗?但另一方面,在所有这些模型和工具出现之前,大多数孩子仍然在谷歌上搜索这些问题并选择多项选择题,你可以争辩说,对于许多科目来说,多项选择题可能并不是鼓励学习的最佳方式。或者你是否鼓励能够真正使他们在生活中获得成功的学习类型?

或者评估真正的理解?例如,当有人选择多项选择题答案时,你不知道他们是否随机猜测,他们是否得到了正确的答案但过程错误并且他们很幸运,或者他们是否真的知道自己在做什么。

是的。我认为以前在谈论 AI 对学习的影响时已经做过计算器的比较。但与现在我们有了计算器的事实类似,这需要一段时间,需要几十年。但他们以不同的方式教孩子们数学,也许关注不同的方面。当我还完全手工计算时,他们很清楚。我希望并认为 AI 也将发生同样的情况,或者最终学习质量会得到提高,也许是因为更容易在对真正理解没有帮助的事情上作弊。

对吧?我的意思是,如果我们认为这只是今天发布的,这是否是所有其他模型(至少是大型基础模型)的未来信号?你是否看到不同公司在其模型方法和思维方式上存在某种分离?

这是一个很好的问题。我认为我们开始看到一般智力和情商之间存在一些差异。因此,如果你正在构建一个具有普遍智力的模型,并且你可能希望对这些复杂的问题(无论是物理、数学、逻辑等)给出正确的答案,我认为像 OpenAI、Anthropic 或 Google 这样的公司可能专注于拥有这些强大的通用人工智能模型。因此,他们都可能会实施类似的东西,并且现在可能正在这样做。

然后有一些新兴公司,我想说,他们说我们实际上并不想要世界上最好的解决数学问题或编码的模型,我们正在构建一个消费者应用程序,或者我们正在构建一个企业客户支持代理,或者其他什么。我们想要一个感觉像与人类交谈的模型,并且真正具有同理心,能够承担不同的个性,并且更具情商。因此,我认为我们正在到达一个非常有趣的岔路口,大多数大型实验室专注于通用智力,而其他公司专注于情商以及这些用例的更长尾部分。

很有趣,我们是否有对此的基准测试,因为显然有关于它们在数学方面表现如何的基准测试?因为我们还没有达到实用性方面的完美,这就是人们衡量的东西。但是你有没有……

看到任何类型的……我有这种感觉,某些消费者群体将它用于治疗或陪伴等目的。如果你乘坐地铁,寻找这些产品或群体的指标,你会发现用户创建了自己的非常原始的基准。是的,例如,我使用了这十个模型,并向它们提出了所有这些问题,这就是我的评分方式。但我认为还没有大规模的情商……

基准测试 Reddit 可能会创建,是的,我不会感到惊讶。是的。

说到这个,绝对的。如果你正在构建它。我认为这也与这样一种观点有关:这些模型本身最终并不是产品,它们……是的,嵌入在产品中。

我认为,奥利维亚,你分享了一个 Spotify Daily……是的,关于这如何成为一个真正伟大的重新参与案例研究的推文,因为所有收入部门都在试图以某种方式嵌入这些模型。你说这是一个关于如何做到这一点的非常好的案例研究。好吧。

是的,所以 Spotify Daily……

我们都很喜欢。

我从不分享我的 Spotify Wrapped,因为基本上这只是件令人尴尬的事。

但那是我的……

温柔、忧郁的周四下午。

这实际上比我能想到的要好得多。是的,我得到了很多……我说那生活……是的。基本上,Spotify Daily 的作用是,它是 Spotify 的一项新功能,它会分析你过去的所有收听行为,并根据你通常在那个时间收听的音乐类型(情感上、情绪上、心情上)创建播放列表。

它每天制作三个,我认为,默认情况下每天一个。是的,它每六……

个小时左右更新一次。没错。而且反响非常好。所以 Spotify,你最近发推文说,我认为大约 70% 的用户每周都会返回,这是一个非常非常好的参与度,尤其是在……

你必须去寻找艺术作品的情况下。

没错。是的,这真的很有趣。

我认为它之所以如此有效,是因为许多其他公司只是试图添加一个通用的 AI 功能。但这个很棒,因为它利用了它拥有的关于你的现有数据,以一种不会让人感觉具有侵入性,而是让人感觉很愉快的方式执行,而且它不仅仅是一个有趣的一次性新奇事物,而且推荐也相当不错。因此,你最终会经常收听它。这就是我认为人们每周都会回来的原因,因为它仍然具有新奇性,就像我说的那样,我会在 Instagram 上截屏并确保我的朋友知道我现在感觉如何。是的……

每日列表在 Gen Z 中尤其受欢迎。他们在 TikTok 和 Twitter 上到处发布,就像疯狂地分享他们的每日列表一样。我认为 Spotify 的做法是,它获取数据,将其传递给算法,并询问“这个播放列表的有趣描述是什么?”但由于它不是人类,这些描述通常类似于“周四上午的普通黑色猫咪恐慌”,你会想,这是什么?甚至是我?

你喜欢什么?是的,就像……

对。但我也很困惑,以至于我会继续回来查看下一天的列表。是的。是的,它以一种我之前只在 Wrapped 上见过的方式固有地具有病毒式传播性。可能首先要合格。

我看到的另一个在类似方面都很有趣且具有病毒式传播性的 AI 良好实施示例是在 Twitter 上,他们的新 AI 聊天机器人。它会阅读我的推文并了解我的帐户,或者根据类似的语气起草推文,这利用了他们拥有的关于你的现有数据,并创造了一些有趣且可怕的东西,并且不会让人感觉具有侵入性,因为是你去提出请求,而不是它将某些东西推送到你的信息流中。

是的,也许要点是,最好的模型并不一定等于最好的产品啊,是的,我认为你引用了 Nick Saporta 的话,他说,还记得 Dolly 3 吗?当它发布时,每个人都在谈论它的连贯性有多好。然后他的观点是,还有多少人在使用这个模型?我认为答案是没有多少人。

是的,我认为这有几个方面。特别是对于 Daily 来说,它并不总是最准确的。LM 对你的音乐品味的描述,这并不是人类策展人可能会做的事情,但奇怪之处几乎是功能而不是错误,是的,这有点像情商的例子。

而通用智力就像它知道这个人想要什么,但不是那种枯燥的“你在周四早上听柔和的乡村音乐”。我认为我们在创意工具方面看到的另一个方面是,不同的人有不同的风格,但还有产品如何融入你的工作流程?它们是否易于使用?它们是否有社交功能?它们是否易于重新混合?所有这些使消费产品在历史上发展壮大并留存下来的因素,都可以使一个较差的模型比一个更好的模型做得更好。是的。

我认为这在不同模式下有所不同。同样,Spotify 可能使用 LLM 来生成这些内容,它并不是世界上最复杂的 LLM,对吧?但它足够好,可以生成足够有趣的描述。我想说,对于大多数文本模型甚至大多数图像模型来说,优秀的开源模型或优秀的公开可用模型与一流的私有模型之间存在差距。但它并不一定像高尔夫球那么大,是的,与视频和音乐以及其他一些更复杂的模式相比,最好的公司私下拥有的东西与通过开源或其他方式公开可用的东西之间仍然存在相当大的差距。因此,我认为我们至少看到,如果文本和图像的趋势继续下去,这可能会随着时间的推移在不同模式下缩小。这意味着,再次强调,这并不是这个团队是否拥有最好的研究人员,特别是对于消费产品而言;而是这个团队是否对工作流程、输出结构、集成、消费者行为以及背后的情感有最好的理解,这将使他们能够构建最好的产品,即使它不是最好的模型,但该模型足以满足用例?

完全正确。对于那些使用开源内容进行微调以满足自身用例的公司来说,这有多重要?对于他们来说,修改模型本身有多重要?首先只是巧妙地运用留存技巧或产品设计之类的东西。

我认为这取决于具体的产品和用例。我的意思是,我们已经看到一些案例,人们通过使用基础的 Stable Diffusion 或其他什么东西,让人们上传十张图片,然后它会训练你的模型并生成非常酷的图片,从而彻底走红。但该公司并没有自己进行微调。

他们获得了数百万,在某些情况下是数亿美元的收入。也许在那里有一些微调,但这可能非常基础。

是的。但我认为,在消费者方面,通常通过提示或围绕它设计产品体验,你可以走得很远,我认为在企业方面,我们开始看到更多需要围绕……例如,我与许多公司谈过,他们为家具或大型物品做产品摄影,你不需要进行大型拍摄,你只需要让 AI 生成图像,你可能希望针对大型数据集上的沙发(从各个角度)对基础模型进行微调。因此,当您只有侧面或正面照片时,它会了解如何生成后视图……

沙发的,啊,因为在使用消费者产品的输出方面,标准要高得多,在很多情况下,随机性是乐趣的一部分。

说到模型,我们再谈一个,Adobe 发布了他们的 Firefly 视频模型。Firefly 于 2023 年 3 月发布,但那是文本转图像。所以现在他们正在发布这个视频模型。

他们在周三发布了这个消息。他们还很有趣地说,自 2023 年 3 月以来,社区现在已经生成了 120 亿张他们所说的图像和矢量,这是一个天文数字。现在他们再次转向视频。他们发布了一些生成,每个生成都在两分钟内完成。是的,想法。

Adobe 是一个非常有趣的案例,因为他们将他们的模型描述为只在最安全、负责任地许可的数据上进行训练,并且他们不使用用户数据进行训练。因此,我认为从历史上看,他们在文本转图像或可能文本转视频的同等性方面有点受限制,因为与该领域的所有其他参与者相比,你真的限制了数据,输出通常质量不高。

我会说,他们在如何将人工智能融入人们已经在使用的产品方面做得非常好?我不知道这是否包含在萤火虫的几代数量中,我想是的。但他们在这方面做得非常好。例如,在Photoshop中,你现在可以进行生成的扩展,比如你有一张人像照片,想把它变成风景照,等等。你可以直接放入照片,点击裁剪按钮,拖动两侧,然后萤火虫会生成原本图像周围应该存在的一切,就像填补空白一样。

我还看到,甚至像病毒式TikTok视频中,有人上传了自己站在某个地方的照片,然后使用生成的字段,那种放大并查看人工智能认为他们站在什么地方的画面,是的。

我认为这反映了一个事实,即Adobe第一次让这项活动变得可用,他们已经以积极的方式对复杂的产品进行了相当大的改进,是的,但有了Eye,你现在可以在网上免费使用萤火虫。他们在Adobe Express中有一个移动应用程序,他们真的在追逐消费者,我认为我们以前从未见过他们这样做。我会说,阅读关于新视频模型的博文,它似乎非常关注专业视频创作者以及如何将其嵌入到他们的工作流程中。

比如,好吧,你有一个镜头。下一个自然而然的镜头是什么?我们如何帮助你生成这个面向消费者的视频?

我认为这是有道理的,因为在图像方面真正引起他们共鸣的是,我认为是通用填充和生成扩展,这是一种利用现有资产的方式。是的,说,如果这个更大,会包含什么,或者我想放大这个东西,他们在这方面做得非常好,老实说,我仍然经常使用这些功能。

一直是的,是的。他们过去宣布,他们还将把其他模型,视频模型带入他们的产品中,我认为Sora和Peak是其他的。所以我至少不认为这是他们试图成为主导型、一体化视频模型的尝试,而是可能开始与他们自己的一些技术集成。

他们有一个非常有趣的机会,因为他们有如此多的用户。是的,我说过,好吧,如果我们只想拥有最好的AI创意副驾驶,那么我们的模型是在非常有限的数据上训练的,真正用于制作图像和视频的大型模型是什么?或者我们应该让用户在我们自己的模型和我们将基本上在我们的生态系统中提供的其他四个模型之间进行选择,我认为如果他们走后一条路,这暗示了他们会这样做,这是一个非常有趣的创业公司分销机会,因为大多数创业公司无法一次接触到数亿使用Adobe产品的消费者。

这是一个很好的观点。所以我甚至没有意识到这一点,但他们说过他们可能想引入这些其他模型,他们可以成为首先出现的模型,并确保他们只使用某些权利,但随后他们可以集成这些其他模型,并保持他们在拥有多少Adobe用户方面的优势?

是的,没错。我认为我们已经广泛讨论过视频问题。我认为他们用最近发布的版本重申了这一点,但在那之前,他们也谈到了商店和其他视频。

它们非常有趣。我认为多年来,他们一直允许外部公司和开发人员在Adobe套件之上构建插件。其中一些似乎是Adobe本身想要构建的东西,例如,Awair之类的产品,它有你的预设编辑设置,并允许其他人使用你可能认为Adobe可以做到的那些设置。但如果我是他们,我会想,嘿,实际上,我们可能不会自己构建AI原生版本的Adobe,但如果我们允许其他人构建这些AI原生工具并在Adobe中使用它们,而不是让那些构建自己产品并吸引用户远离Adobe套件的人,那么我们将成为一个更棒的产品。我认为我们仍然觉得在这个时代,将会出现一个,如果不是多个,独立的AI原生Adobe。但我拭目以待。

你的观点是,他们的文章中展示的模型更基于,就像你说的,那些拥有现有内容的人,是的,你可以提升它或以某种独特的方式剪辑它,但不像你说的那样,AI原生,让我们从零开始。让我们根据你的文本提示创作一些东西。好吧,这太棒了。事情发展得如此迅速,我们必须再次进行讨论。并且有更多模型和公告。

太棒了。感谢你们的邀请,当然。

谢谢。好了,你在这里听到了。如果你想让这些及时的剧集继续下去,你必须让我们知道,通过分享本剧集或在ratethispodcast.com/a16z上留下评论来投票。

a16z.com。你也可以随时在[email protected]提出未来的剧集建议。非常感谢收听,我们下次再见。