AI companies solving bounded problems, such as video generation, focus on rendering solved problems like CGI, making them more accessible and efficient. In contrast, companies tackling unbounded problems like general intelligence are solving an unsolved frontier, which may require continuous investment in larger models with no clear endpoint.
Video data is heavier, rarer, and more expensive to train on compared to text or audio. It requires significantly more storage and processing power, and there is less video data available globally, making it a unique challenge for AI models.
Captions' data flywheel allows the company to continuously ingest and grow its video data, which is used to train better models. This creates a feedback loop where user-generated content improves the models, enabling the company to stay at the forefront of video generation and editing technology.
AI-generated video could reach Hollywood-quality production within 18 months, driven by advancements in diffusion models and the scaling of parameters similar to the evolution of text models.
Video models, particularly diffusion models, start from noise and gradually predict layers of clarity based on text conditioning. This is different from text models like GPT, which predict the next word based on previous context. Video models require significantly more computational resources due to the complexity and size of video data.
Captions' AI tools include AI Creator, which generates videos of people talking, and AI Edit, which automates video editing tasks. These tools are used for marketing, sales, education, and social media content creation, allowing users to produce high-quality videos without extensive editing knowledge.
The competitive landscape is intense, with many companies attempting to replicate Captions' success. However, Captions differentiates itself by focusing on A-roll video generation and building a data flywheel, which gives it a significant advantage in training foundation models for human-centric video content.
AI software applications may adopt a mix of subscription-based pricing and value-based pricing, depending on the use case. While consumer pricing is evolving towards higher subscription fees, B2B pricing may align more with the value of replacing labor costs or improving operational efficiency.
From their time at Snap, they learned the importance of innovation, product-centric culture, and the CEO's intuition in driving success. They also gained insights into navigating highly competitive markets and the challenges of maintaining product-market fit in a rapidly evolving industry.
For Gaurav, the kindest thing was his parents ensuring he was born in the U.S., which provided him with opportunities he wouldn't have had in India. For Dwight, it was his wife's support in enabling him to take risks and start Captions, which significantly impacted his career.
今年「Invest Like the Best」节目的赞助商是 Ramp。Ramp 为公司财务构建了一个指挥和控制系统。您可以在一个地方签发卡片、管理审批、进行各种供应商付款,甚至自动化结账。
作为这项新合作的一部分,我们对该公司及其产品进行了深入的探讨。在客户调查中,我们反复听到和看到的是,Ramp 是迄今为止最好的产品。自从我开始创业以来,我就一直在使用它,这早在我能够花很多时间与 Ramp 的创始人及其团队在一起之前很久。假期期间,我和 Ramp 的创始人在一起。听众们知道,我相信最好的公司是那些创立和运营它们的员工的反映。
我一直很喜欢苹果公司实际上只是拥有 10,000 个生命的史蒂夫·乔布斯的想法。通过深入了解 Ramp 的创始人,我可以告诉您,他们对节省人们的时间和金钱的使命绝对狂热。据我所知,他们从不停止工作或思考产品以及如何改进产品。我相信他们为自己的成就感到自豪,但我听到的只是他们谈论如何改进和扩展 Ramp 为客户提供的服务。
我过去常常开玩笑说,这个播客应该叫做“这就是你的对手”。当我与 Ramp 的创始人 Kareem、Zach 和 Eric 在一起时,我经常有同样的想法。我不想与这些人竞争。我希望我使用的所有产品都拥有一个如此一心一意地以各种可想象的方式改进产品的团队。我可以在这里列出 Ramp 的所有功能,但这份清单在一周内就会过时。我强烈建议您今天就开始使用它来管理您公司的财务。
今年,我将分享一些我从这些创始人以及这家公司中学到的东西,我认为这会让您明白为什么我们如此兴奋地与他们建立合作关系,以及为什么我们在 Ramp 上运营我们的业务。要开始使用,请访问 ramp.com。
作为一名投资者,我一直在寻找能够真正改变我们作为企业工作方式的工具。AlphaSense 通过尖端的 AI 技术和大量顶级可靠的商业内容,彻底改变了研究流程。自从我开始使用它以来,它彻底改变了我的市场研究。我现在每天都依赖 AlphaSense 来发现见解并做出更明智的决策。
随着最近收购 Tegas,AlphaSense 继续成为一流的研究平台,提供更强大的工具来帮助用户更快地做出明智的决策。真正让 AlphaSense 脱颖而出的是其尖端的 AI 技术。想象一下,搜索速度提高了五到十倍,并能提供最相关的结果,帮助您充满信心地做出高确定性的决策。
AlphaSense 提供对超过 3 亿份高级文档的访问权限,包括来自上市公司和非上市公司的公司文件、收益报告、新闻稿等等。您甚至可以上传和管理您自己的专有文档,以实现无缝集成。凭借来自高盛和摩根士丹利等公司的 10,000 多个高级内容来源和顶级经纪商研究,AlphaSense 为您提供了充满信心地做出高确定性决策的工具。
最棒的是,「Invest like the best」的听众现在可以免费试用。只需访问 alpha-sense.com/invest,亲身体验 AlphaSense 和 Tegas 如何帮助您更快地做出更明智的决策。相信我,一旦您尝试过,您就会明白为什么它是市场研究的必备工具。
每位投资专业人士都知道这个挑战。您热爱投资的核心工作,但运营复杂性会占用宝贵的时间和精力。这就是 Ridgeline 的用武之地,它是一个专为投资经理设计的全合一操作系统。Ridgeline 创建了一个全面的云平台,可以实时处理所有事务,从交易和投资组合管理到合规性和客户报告。过去需要同时处理多个遗留系统并
花费无尽的季度末时间来编制报告的日子已经一去不复返了。值得联系 Ridgeline 了解一下使用单一平台的体验。访问 RidgelineApps.com 安排演示,我们将直接听到一位已经转换平台的人的意见。您将听到我与 Katie Ellenberg 的对话片段,她负责日内瓦资本管理公司的投资运营和投资组合管理。她的团队在短短六个月内就实施了 Ridgeline,在本期节目结束后,她将分享她的完整经验以及他们所看到的关键好处。
我们使用了之前的供应商超过 30 年。我们拥有从投资组合会计到交易订单管理的整套产品,
报告、对账功能。我认为我们永远无法切换到其他任何东西。我们的首席交易员 Andy 建议我与 Ridgeline 会面。他们一开始并没有介绍他们的公司,而是介绍他们正在招聘的人。这引起了我的注意。他们几乎组建了一个由技术专家组成的梦幻团队。然后他们开始谈论这个单一数据源。我想,这是什么?我
我甚至无法想象,因为我已经习惯了所有这些不同的系统和相互叠加的不同模块。所以我想要了解更多关于这方面的信息。当我查看其他公司时,他们只能解决我们拥有的部分内容和我们所需的部分内容。
Ridgeline 是整个软件包,而且他们是专家。我们不再只是一个数字。当我们打电话给服务部门时,他们知道我们是谁。他们完全支持我们。我知道他们不会让我们在这个转型过程中失败。大家好,欢迎大家。我是 Patrick O'Shaughnessy,这是「Invest Like the Best」。本节目是对市场、理念、故事和策略的开放式探索,将帮助您更好地投资您的时间和金钱。
「Invest Like the Best」是 Colossus 系列播客的一部分,您可以访问我们所有的播客,包括编辑后的文字记录、节目说明和其他资源,以便在 joincolossus.com 上继续学习。Patrick O'Shaughnessy 是 Positive Sum 的首席执行官。Patrick 和播客嘉宾表达的所有观点仅代表他们自己的观点,并不反映 Positive Sum 的观点。
本播客仅供参考,不应作为投资决策的依据。Positive Sum 的客户可能会持有本播客中讨论的证券的头寸。要了解更多信息,请访问 psum.vc。我今天的嘉宾是 Dwight Churchill 和 Gaurav Misra,他们是 Captions 的联合创始人,Captions 使用 AI 生成和编辑谈话视频,并以惊人的速度发展到相当大的规模。
我们探讨了 AI 的一个关键区别:解决视频生成等有限问题与解决通用人工智能等无限问题,以及这对构建可持续发展的企业意味着什么。我们还探讨了他们独特的数据飞轮、为什么视频生成可以在 18 个月内达到好莱坞的质量,以及为什么构建先进的 AI 产品不需要庞大的团队。请欣赏与 Dwight 和 Gaurav 的精彩讨论。关键的一点是,您将听到的第一位是 Gaurav。♪
所以,伙计们,我认为每个人都在关注的话题是,从 AI 作为一项令人难以置信的技术,每个人都明白它有多么神奇,转变为,好吧,太好了。我们要用它做什么?我们如何利用这项核心技术来建立持久发展的企业?
你们很早就开始建立一家使用这项技术的公司,并很早就向客户收费了。也许您可以从您迄今为止关于建立 AI 业务的经验教训开始谈起,这些教训可能与普通的软件业务有所不同,还可以谈谈你们自己的一些悬而未决的问题。
尝试改进您的商业模式。我认为这正在成为目前市场上最重要的问题。你们是最早的采用者之一。所以你们是回答这个问题的最佳人选。
说到这里,我认为首先想到的问题是,我们究竟通过这场 AI 革命取得了什么成就?究竟有什么不同?AI 以前就存在,现在也存在。显然,今天的东西有一些神奇之处。我认为,当您深入研究时,您会意识到,这实际上是关于训练越来越大的模型的能力。是的,这实际上是两方面的结合:我们有更好的硬件来做到这一点。我们
我们拥有更好的机器学习架构,例如转换器、扩散模型。我们创建了所有这些新型的架构解锁。然后我们还创建了其他技术,这些技术使我们能够训练越来越大的模型。事实证明,这些模型越大,它们就能解决的问题就越多,在解决文本生成或通往 AGI 或视频方面就越好。
视频生成或媒体生成。我认为,当您意识到这一点时,您实际上会意识到,最终真正重要的是数据。许多公司都在抓取互联网,而互联网在某些方面也是有限的。即使是互联网上的信息也是有限的,而且每天都在增长。但我认为,归根结底,除此之外,我们将不得不找到那些能够持续增长更大模型的可持续数据来源。而且
我认为这将是许多 AI 领域最终获胜者的根本问题,而这些领域正是 AI 今天正在取得成功的领域。我认为,对于我们来说,在视频生成、视频编辑方面,它归结为视频数据,视频数据实际上更重、更难以找到,不像文本或音频那样常见,而且训练成本可能更高,在世界上的创建也更有限。因此,这往往是一个很大的挑战。
我们正在思考的一件大事是如何创建一个飞轮,使我们能够持续不断地、不断增长的基础上摄取数据,而这些数据实际上可以
为我们创建越来越大的模型,并使我们保持领先地位。我还想在这里指出,现有的 AI 公司之间存在着相当根本的区别。我认为,如果您查看许多文本生成公司,他们并不是在解决文本生成问题,我们不称之为文本生成,他们实际上是在解决一个完全不同的问题,那就是智能。
智能是一个未解之谜。还没有人解决这个问题。是的,我们在这些模型中实现了一定程度的智能。还有很长的路要走。它可能不会以人类智能告终。世界上有些人非常聪明。世界上有些人不太聪明。两者都存在。显然,智能的范围是可能的。对于你是否聪明,并没有一个值。所以,有没有可能有一种能力比最聪明的人更聪明?这是可能的。但这对我们来说是一个从未到达的领域。
因此,它是在解决这个未解之谜。但我认为,如果您考虑音频生成、视频生成、音乐生成或这些类型的事情,那么我认为,这与其说是解决无限的智能问题,不如说是解决实际呈现已解决的问题。例如,视频,CGI 就存在。我们可以制造假的东西。我们可以制造假人。我们可以制造虚假的场景和龙。
因此,这是一个已解决的问题。我们知道这些问题有解决方案。借助 AI,我们实际上只是使解决这些问题变得更容易。不仅仅是一点点,而是容易 100 倍,最终,这意味着更容易获得、更大的市场、更多的人可以使用这些类型的技术。所以我认为,这里的一个根本区别是,如果您查看真正致力于 AGI 的人工智能公司的商业模式,那么您必须考虑这样一个无限的问题:好吧,我们投入了大量的资金。我们创建了一个模型,只是为了让这个模型被下一个模型超越,而这个模型变得基本上无用且过时。然后是下一个模型。这要持续多久?实际上,我们不知道。它可能会永远持续下去。这场智能竞赛可能没有尽头。而如果您查看媒体生成公司,
它实际上是在创造一种资产。很快就会出现一个点,哇,它真的很好。它非常完美或接近完美。我们已经解决了这个问题。然后它就是一项资产。之后,它只是一家软件公司。这项资产的创建成本非常高。但一旦它存在,它就会产生价值。而且它不会轻易贬值。那么,是什么让这些模型越来越好呢?我认为这将是通过更多数据进行微调,针对特定用例进行微调,不同的......
不同的您想要生成的类型,不同的视觉效果,无论是什么。用例例如,它将用于广告、电影、社交媒体或其他内容。但可能会有一个点,哇,是的,这很好。这是现实的。我认为这是我们现在正在思考的一个非常重要的事情。我们如何引导这个数据飞轮来达到这个水平?
使用视频数据是什么感觉?我猜想您拥有的数据量以 TB、PB 或您如何衡量的方式来衡量,这简直是疯狂的。您如何看待可能达到最佳状态的东西?我喜欢你们提到的观点,如果您给好莱坞工作室或 WADA 等公司足够的资金,他们实际上可以创造任何您可以想象的视觉效果。
想象力和输出之间的摩擦已经消失了。它只是非常非常昂贵。所以您真正做的事情只是让它更便宜。您认为这何时可以实现?
老实说,我认为很快就会实现。视频模型增长的速度,我的意思是,您可能还记得看到过威尔·史密斯意大利面条的事情。每个人都看过这个表情包,对吧?它从非常糟糕变成了,哇,这实际上很好。我认为非常好可能在一到一年半的时间内就能实现。我之所以这么说,是因为如果您将文本模型与视频模型进行比较,文本模型已经达到了 4000 亿参数的范围。
人们今天更好地理解如何扩展大型语言模型技术,这仅仅是因为投入了更多的资金,投入了更多的时间。像扩散模型,仍然在数百亿参数的范围内。这还处于早期阶段,甚至与文本模型都不相近。因此,随着它的增长,毫无疑问它会越来越好。专家们知道这一切都是可能的。只是世界上很少有公司拥有资金
和专业知识来实现这一目标。所以,这需要一些时间。这不像一些未解之谜。人们知道需要做什么。只是我们都在努力。我们都在朝着这个方向前进。我们将看到这些模型越来越好,尤其是在视频方面。我很容易就能看到,在一到一年半左右的时间内,某些东西会非常接近于难以区分,基本上就像一个真实的
录音,甚至可能更早。那不是最坏的情况。是的,我认为人们还不能完全理解这一点。我认为这会影响他们每天的工作方式,最终会被重新发明的流程,所有这些的新范式,这可以说是部分设计问题,部分只是产品问题。这非常接近 Gaurav 谈论的时间表。人们今天正在进行实验。这还处于非常早期的阶段。我认为
公司采用和围绕这些方面的事情。我们距离真正重塑人们每天工作方式的方式并不遥远。您能描述一下您作为一家公司所经历的阶段吗?也许我们会使用特斯拉的类比。
他们模型的一个优点是,汽车由于被驾驶,一直在收集数据。产品本身自然会生成数据残留。我认为你们在视频方面也有类似的故事。因此,您不需要 YouTube 或一些大型专有视频库来做您正在做的事情。您能描述一下,带我们回到业务的第一天,当时的情况,为什么你们从那里开始,以及从那时起它如何发展?是的。
这确实是一段非常有趣的旅程。而且,我们经历了一些有趣的曲折。但我认为,如果您将点与点连接起来,这很有趣。当我们创立公司时,我们制作的第一个应用程序是 Captions,我们推出了它。我们为什么制作它?目标是让内容创作者在某种视频创作平台上创作内容。不容易。我之前在 Snap 工作过,Snap 已经尝试过很多次了。他们推出了应用程序。我的意思是,视频是一种商品。视频编辑器是商品。许多这些公司实际上是外国公司。这是因为我们目前只是试图尽量降低成本,而且竞争非常激烈。
我们的想法是,我们将破解这个问题的方法是使用 AI 来帮助创建视频。这将成为我们的差异化因素。这就是人们会来到我们这里的原因。因此,我们看到对语音转文本的需求。顺便说一句,当时的这项技术已经相当不错了。在科技圈,人们会说,当然,语音转文本,我们知道它现在已经相当不错了。但我认为普通人实际上并不了解这项技术已经发展到了多么好的程度。
以及它的准确性,包括姓名和各种术语等等。因此,当我们构建第一个产品时,它只是像,嘿,它只是在视频上添加文本。顺便说一句,这是在周末两天内构建的,只是简单地拼凑在一起。我们把它放在应用商店里,然后睡觉。第二天早上,它登上了应用商店榜首。没有解释。我们没有做任何事情来实现这一点。有人看到了它。他们在某个地方发布了它。它爆火了,然后我醒来给 Dwight 发短信。我说,嘿,
我认为每分钟大约有 600 个视频在该应用程序上创建。因此,这是一种即时的成功。但即使在那两天工作中,我们已经以这样一种方式为应用程序添加了工具,使我们能够继续训练越来越好的模型,以便我们可以为用户提供更好的价值。所以我们的想法是,这个应用程序是一个 AI 应用程序,人们来到这里,
他们使用该应用程序。我们使用数据来改进模型,并在下次用户返回时提供更好的体验。这从第一天开始就做到了,从字面上看。这是最初的计划。现在,在应用程序发布后,我们随着时间的推移添加了更多功能,扩展了产品范围。我们现在涵盖了从脚本编写到录制到视频编辑、分发以及 AI 如何工作的整个领域。
可以改变所有这些不同的领域,因为在所有这些领域中都有应用程序。并且可以在所有这些领域中收集数据,以改进这些模型。这就是我们的产品真正独特的原因,因为所有其他公司实际上都没有考虑数据收集方面,而只是生成输出。这就是他们必须抓取互联网来改进其模型的原因。对我们来说,这更多的是关于
增加用户群,以便数据实际上可以为越来越好的模型提供动力。而其中很多都是通过视频实现的。因此,视频直接被输送到视频生成模型中。
这给了我们显著的优势。这可能是未来商业模式的一种可能设置方式。实际上,顺便说一句,这有点熟悉。在我看来,这类似于 Facebook 或 Google 的商业模式,您拥有一个大众消费者免费产品,基本上,数据用于为本质上类似于 B2B 付费产品提供动力。
如果您考虑训练的字面过程,也许您可以向那些对这实际上是如何运作感到好奇的人解释一下。所以您有原始视频。其中很多都有语音。您可以通过将语音转换为文本来启动它,很明显。但是......
但假设您正在尝试训练一个模型。我喜欢你们提到的许多人,例如 Asura,专注于我们所说的 B 卷背景视频或只是视频的景观。而你们的重点是 A 卷,就像一个人在 iPhone 上拍摄的视频一样。您如何训练一个模型,使其输出是 A 卷那样的?例如,想象一下某人阅读广告朗读的肖像视频。
这与实际使用 iPhone 拍摄的实时视频无法区分?训练过程的字面意义是什么?模型在训练时的目标是什么?
这与下一个标记预测有多相似或不同?视频中下一个 X 预测或其他内容的心理模型是什么?您如何看待正在发生的字面训练过程?这很有趣,因为对于我们训练的模型来说,它们是扩散模型。因此,它们实际上是从噪声开始的。它从字面上的噪声开始,就像您在电视上看到的静态,在每一步中,根据提供的文本。
它查看噪声,并试图预测该噪声中的一层清晰度。它说穿着蓝色衬衫的男人。因此,它开始从噪声中绘制出穿着蓝色衬衫的男人。然后,每次通过它时,它都会发现更多关于穿着蓝色衬衫的男人。这就是文本条件,它有助于决定如何达到穿着蓝色衬衫的男人看起来像什么的目标。
因此,这就是扩散模型的工作原理,这与像 GPT 这样的下一个标记预测模型的工作原理略有不同,正如您可能想到的那样,它只是根据所有先前说过的词(被认为是上下文)来预测下一个词。因此,这些模型是不同的。我们在扩散模型训练路径上仍然处于早期阶段。我们仍然处于 100 亿、200 亿、300 亿参数的阶段。Meta 的电影生成器我认为是 300 亿参数。
人们还没有真正扩展这些东西。我们实际上不知道 OpenAI Sora 有多大。我认为他们没有发布这些信息。但很多工作将用于扩展这些东西。视频显然非常重。这就是它与文本不同的原因。它消耗了大量的空间,大量的处理能力。对于我们来说,即使我们要下载所有训练视频,下载训练视频也要花费我们一百万美元。这与文本完全不同。
它为训练这些模型带来了不同类型的挑战,基本上。这对于视频模型相对于文本模型所代表的资源消耗意味着什么?像公共市场和私人市场中的一场大型讨论是 GPU 农场需要多大?这些视频模型要达到完美的程度,是否一定比文本模型更消耗 GPU?您对 GPU 农场这个大问题的看法是什么?
我们需要在数据中心旁边建造核武器来训练完美的《指环王》模型吗?你永远不知道。但老实说,我认为在视频模型方面将拯救我们的是,它实际上比文本问题更容易解决。文本问题是智能,正如我们所讨论的那样。而视频问题更多的是渲染。我们已经知道渲染的成本是多少。我们已经知道,是的,它是 GPU 密集型的。如果您要对场景进行 CGI 渲染,是的,它会在 GPU 上花费一些时间。毫无疑问。
我们可以比这更有效率吗?这是可能的。它今天可能不是最有效的。也许有更好的方法。也许 AI 会比常规渲染更便宜、更快。我认为,如果情况如此,那是一件好事。但我认为我们知道它不应该比这更糟。我们应该能够用比这更少的资源来解决它,或者至少是相同的资源。我们通常了解它将落在哪里。这还处于早期阶段。就像在训练方面一样,我们仍在扩展这些模型,它仍然是,哦,它是 100 亿参数,200 亿参数,等等。
在推理方面,类似的学习同时发生。我们不需要进行 100 步扩散来进行推理,例如 100 个去噪步骤才能获得清晰的图像。我们现在可以提取模型,并让它们使用几步扩散。我认为我们绝对是我们效率最低的时候。它只会变得越来越高效。它可能至少是一个数量级的因素,例如 10 倍或类似的东西。
您能谈谈拥有业务的感受吗?我们不会引用业务规模有多大,但它非常大,而且发展速度惊人。现在您听到的一个常见想法是,这项新技术解锁了分销。在成熟的最后 SaaS 周期或类似时期,分销曾经非常昂贵。人们已经有了他们的工具。但是当工具只是好 10 倍或更多,好 100 倍时,
一段时间内分销变得非常容易。我认为你们已经从这种分销解锁中受益。只是谈谈那是什么感觉。看到收入、用户和所有这些东西以这种速度增长是什么感觉?因为似乎一些 AI 应用公司的收入增长速度超过了我们见过的任何东西。我只是想让您稍微谈谈这个话题,首先,描述一下感觉如何,但也反思一下它教会了我们什么。
我的意思是,对于任何从事工程或产品方面工作的人来说,这绝对是最令人兴奋的事情,我觉得没有什么比看到我做了一件事,第二天就产生了影响更令人兴奋的了,对吧?人们关心。没有什么比这更令人兴奋的了。我认为我们看到了这一点,这很好,这就是为什么我们能够建立一个伟大的团队,
聘请所有这些优秀人才,确实为我们奠定了成功的基础。但我认为,对我来说,最有趣的部分也许是,随着你扩展用例,它实际上正在扩大潜在市场。而这个潜在市场没有竞争对手。随着你扩展用例,你会看到我们现在正在做广告,或者我们正在做更高质量的视频,即使是在那个轴线上。
你会看到整个新的市场领域被解锁,而那里实际上没有竞争。事实上,导致快速增长的原因仅仅是因为在一段时间内,我们是唯一能够做到这一点的公司。这种情况将会改变。我认为这就是为什么看到越来越多的用例被解锁会很有趣,在某个时刻,所有这些都将被解锁。所有这些都将面临竞争。那将是不同的时期。可能还需要数年时间。我不知道它会在什么时候。
但至少目前,我们看到的是扩展用例的能力。顺便说一句,我们真的认为到目前为止解锁的用例只占1%到5%的范围。我们几乎没有触及可能的表面。随着它的增长,我们看到这些全新的市场被解锁。就像,哇,这是一整套全新的人,他们现在可以用这个做一些真正有用的事情。是的,他们完全愿意付费。他们正在向我们奔来。我们甚至不需要推销它。我们是唯一的选择。这使得增长非常迅速。
我认为这可能是我最激动人心的事情。你能说明一下该平台今天能做什么吗?主要的用例,每个人都能想象到将视频输入,然后得到一个带有字幕的视频。这很简单。你能列出其他的用例,并让我们了解它们的相对受欢迎程度吗?人们想要如何使用像Captions这样的平台,他们的偏好是什么?
当你想到我们时,我们实际上将产品分为两个领域。一个是传统的视频编辑和视频录制,这正如你所预期的那样。它是一个视频编辑器和一个视频录制软件。这是为消费者设计的,完全免费。我们在这里的目标是向大量的人提供
提供一项服务,这是一种他们已经熟悉的创作方式,有点像免费增值商业模式。但目标实际上是将他们升级到AI用例。你实际上不需要花费所有这些时间进行视频编辑和录制。你可以直接生成它。所以在另一方面,我们提供AI套件,它包含两个产品,AI Creator和AI Edit。这些产品与录制和编辑完全相同。
AI Creator可以制作人们说话的视频,无论是你自己、我们提供的演员,还是你可能选择的任何你拥有使用许可证的人。我们可以让他们说任何你想说的话,传递任何你想传递的信息。我们甚至可以创造不存在的人。在这两者之间,你可以获得很多关于你希望如何传递信息的选择。许多用例,如营销和销售等,都与收入非常接近。
然后是AI Edit。仅仅录制视频不足以创造价值。你希望它以某种方式进行编辑,以讲述你想要讲述的故事。这就是为什么我们有AI Edit。它的目的是接收视频并为你进行编辑。你实际上不必担心关键帧、动画曲线、时间线和所有这些概念。视频编辑并不容易。许多人避免它,因为他们只是不想处理这种复杂性。而我们的论点是
我们有一个基础模型,它可以为你完成编辑工作。因此,你不必担心实际编辑任何内容。基本上,这就是产品套件。传统与AI。在AI中,我们有AI Creator和AI Edit。
为了澄清一下,比如在像Edit这样的东西中,我是否在提示它说我希望它做这个特定的事情?然后它是否有点像提示?这就是它未来会发展的地方。目前,它更多的是你提供给它的风格偏好。所以它还处于早期阶段。未来会发生很多事情,随着我们从传统产品中获得更多视频编辑数据,我们将利用这些数据注入我们的基础模型,从而能够基本上用文本进行提示,无论你想说什么,比如
我不喜欢这些图像。我们想要带有更好氛围的不同图像,或者让我们把它缩短到30秒,45秒太长了,或者听起来有点慢。我们想以更快的节奏讲述故事,一般的提示,你实际上可能会对一个真正的视频编辑说的话,以及那些没有详细和复杂视频编辑知识的人可能会说的话。那么人们使用这些工具的相对比例是多少呢?
免费的与付费的,编辑器与创建者?它是怎么分配的?是的,今天,绝大多数用户都是付费用户。在AI Creator和AI Edit之间,它们都同样受欢迎。有些人只使用AI Edit。有些人只使用AI Creator,这取决于用例。然后还有一群人同时使用两者。因此,同时使用两者可以让你只需输入几个字,就可以从绝对的无到一个完全编辑好的视频。
这是一种很棒的第一次体验。现在,有些人可能只想录制他们自己的视频,或者他们可能代表其他人进行编辑等等。因此,他们实际上可能会拍摄一个真实的视频,然后将其传递给AI Edit,就像,“好吧,我已经有一个视频了,帮我编辑一下。”在AI Creator方面,有些人不需要编辑,或者他们对想要用它做什么有非常具体的用例,他们想自己弄清楚。所以他们经常只做AI Creator的部分,很多时候都是使用他们自己的肖像。所以
所以他们可以批量制作不同类型的视频。但它也可以像使用我们的一个演员一样。很多都是营销内容等等。发布在社交媒体上的内容,还有广告以及任何可能与营销相关的任何内容。这些就是相对受欢迎程度。我想说它们差不多。你觉得你是在......
现在与其他公司进行军备竞赛吗?在某种程度上,是的。我的意思是,我认为我看到的最有趣的事情是许多新公司正在涌现。他们都在试图做同样的事情。举个例子,我之前在Snap工作。从Snap离开的另外五个人试图创办完全相同的公司。是的,它正在运作。我们应该做这件事。这是有道理的。我不责怪任何人。我认为他们这样做很好。但我认为我......
喜欢它的一种方式是很多人都在模仿我们。我认为这是一个很好的迹象。这意味着我们正在做正确的事情,我们尽量避免过多地关注其他公司。我们的产品策略、我们构建的内容以及我们所做的事情,实际上是由我们的使命、愿景以及我们对未来的看法决定的。它不应该由其他人正在做什么来决定,因为他们可能根本没有策略。我们不知道。他们的策略可能只是在关注我们。所以很多时候,我们只会关注竞争对手,以了解,好吧,
好吧,这就是他们在做什么。我们真正关注的是思考我们的北极星,以及我们认为未来在哪里?我们是否正在朝着那个未来前进?不仅仅是从技术角度,还从产品角度和用户体验角度。我认为这是有趣的部分,对吧?我认为这太有趣了。我们什么时候有机会在历史上从底层到顶层发明整个堆栈,从硬件层面开始?比如NVIDIA驱动程序中有错误。硬件层面也有错误。这太疯狂了。我们有机会从字面上发明
用户体验,人们将如何与这些东西互动?我认为人们甚至还没有充分考虑这一点。他们只是简单地获取模型并将其放在UI上,然后说,按下按钮,输出结果。如果它更具互动性会怎样?如果你可以在扩散过程中看到步骤,或者你可以在扩散过程的中间预览内容,根据你想要生成的内容进行更改会怎样?还有很多东西有待解锁。
每个功能,无论是设计,还是学习技术是如何工作的,或者技术人员学习营销是如何工作的。这将变得更加完善,更加集成。这就是我们关注的重点。我认为军备竞赛确保我们始终领先于客户今天甚至需要的水平。每当我们发布一些东西时,它都会在第一天立即商业化。我们不是
我们不会像与很多人一起测试它,看看他们的需求,看看我们是否真的解决了任何问题。不,不,不。我们正在为他们的工作构建这个。我们非常深入地了解他们如何工作,无论你是大型企业还是一直到免费消费者。最终,正如Gaurav所说,通过发明这些设计模式以及人们如何与这些新模型互动的方式,我们实际上正在为人们互动的方式铺平道路。
甚至考虑如何完成他们的工作。而这才是真正令人兴奋的事情。在我看来,这就是军备竞赛,但这并不一定针对另一家公司。在构建过程中,你不得不选择哪种方式的权衡是什么?视频是一个很大的类别。这可能意味着我可以制作一部《指环王》级别的电影,或者它可能意味着比这更省力的东西。我们实际上是有意缩小范围的,因为正如你所说,视频非常庞大。它就像一个巨大的市场,几乎有太多的问题需要解决。
我认为如果我们试图关注所有事情,我们将无法解决所有这些事情。因此,我们的重点非常关注围绕沟通的视频。这些是人们说话的视频。很多时候是营销、销售、教育。这些都是大类,或者在某种程度上可能是沟通。而且
这是关于生成这些类型的视频。这是关于编辑这些类型的视频。但我认为生成库存视频很好。我认为这是一个很好的解决方案。但我们的目标不是创建库存视频。实际上是创建一个真实的视频,讲述你想要传达的任何内容的真实故事。不仅仅是兔子在火星上跳来跳去的那种东西,更像是讲述一个故事,推销一个产品,或者任何可能的东西。
一些真正具有沟通性和信息性的东西。这就是我们看到很多产品市场契合的地方。我们实际上是唯一一家训练基础模型来做这种事情的公司,来生成A-roll。有一些技术原因可以解释为什么是这样。这个领域还有其他公司,但他们没有训练基础模型。我们将看看这个领域在未来如何发展。我认为它实际上会更倾向于我们正在做的事情。令人惊讶的是......
模型今天能做什么或一年后能做什么的局限性。比如,我设想我们坐在这张桌子旁,桌子上有一堆东西,我特定品牌的水瓶或其他什么。我想让它能够像这样以某种方式握住它。而且,我想能够指挥一个不是人的物体,但它与人互动。像这样的事情相对直接吗?是的,我认为这会在六个月内发生。基本上可以保证。
我们可能会在现在几个月内开始看到它的第一个版本。这是如何工作的?你是以某种方式创建这个东西的3D表示吗?能够创建这样的东西需要哪些步骤?
你必须找到人们已经与物体互动过的训练视频,你喝一听可乐或其他什么。然后你必须能够识别这些物体,然后将它们作为条件提供。例如,它可能是文本条件。因此,如果你可以用文本充分描述这罐特定的可乐,
这可能就足够了,但也可能不够准确。比如斐济水瓶有一个非常独特的设计。除非模型以前见过,否则它可能无法精确地再现它。文本可能不足以描述它是什么样子。因此,你可以想象一下图像条件。这是一张斐济水瓶的照片,然后是文字,说
穿着蓝色衬衫的男人拿着斐济水瓶。然后它将能够从那里弄清楚其余部分,因为它已经见过瓶子,并且了解瓶子是什么样子。如果它从一个角度看到它,它可以预测它从另一个角度是什么样子。因此,如果你像旋转它并移动它一样,它基本上会猜测它在其他方面可能是什么样子,但它会非常准确,因为你可以从一个角度看到瓶子。你可以想象一个世界,在这个世界中,我们提供瓶子的多个角度,只是为了使其更准确一些。也许另一侧有一些东西在一个图像中不可见,你想确保模型清楚地看到。
所以这些都是显而易见的事情。这将是即将发生的事情的开始。你认为随着创建这些东西的成本和摩擦降低,这些东西的价值会如何随着时间的推移而变化?人类非常擅长稀缺性,并且会赋予稀缺事物价值,而且
因此,展示产品的精美视频是有价值的,因为它在某种意义上是昂贵的。完美的高保真、令人难以置信的质量视频随时可用会如何改变视频本身的价值?我只是好奇你考虑过你正在做的其他连锁反应。
我的意思是,我认为这很有趣。你可以进行的一种比较是,如果你考虑2010年代,通常来说,这是一个设计真正起飞的阶段。像Canva和Figma这样的公司是在这个十年创建的。不仅如此,还有很多公司都在做只需点击几下即可创建网站的事情。它看起来很棒。设计精美的网站,只需点击一下即可。这是一个AI。当时有一个巨大的运动,就是
如果你想在互联网上销售东西,如果你想拥有任何类型的业务,你需要一个设计精美的网站。如果你的网站看起来像是20世纪90年代的,没有人会从那里购买任何东西。我认为现在这很酷。是的,现在很酷。是的。时尚的变迁真是疯狂,对吧?一切都是循环往复的。没错。是的。
几乎没有人拥有糟糕的网站了。但这并不意味着拥有一个好的网站没有价值。它仍然是有价值的。如果你没有一个好的网站,那么你今天仍然可能会受到影响,即使它基本上已经成为商品,每个人都应该拥有它。视频在这个十年中更值得关注。我认为我们将看到越来越多的人采用它。感觉现在有很多人正在采用它,但我认为它将比这更大,因为视频生态系统中的创作者比例将会增长。更多的人将创造它,甚至可能更多的人消费它。
所以我实际上认为视频的价值不会完全缩小。高质量的视频仍然是高质量的视频。如果你想进行营销、销售或任何你正在做的事情,这将是一个要求。但我确实认为,视频的其他方面将变得更有价值。例如,如果你考虑肖像权,如果模型可以随意生成不存在的人的肖像,
而且他们看起来像很棒的人,你希望代表你品牌的人。你甚至可以将一个不存在的人的肖像作为你公司的知识产权,让他们成为公司的代言人。这听起来很棒。这听起来很棒。但这意味着肖像权的价值将归零。普通的肖像权毫无价值,因为任何人都可以凭空创造一个。这对
一般来说,肖像权的成本,或者高端肖像权的成本,我认为将取决于谁是知名人士。一个实际上为人们所知、值得信赖、为成千上万、成千上万甚至数百万的人所理解的肖像权现在是有价值的。它突然变得更有价值了。顺便说一句,那个人可能也不存在。有人可能会创造一个完全虚构的人
发布视频等等,然后成名。是的,小米凯拉远远领先于时代,向特雷弗·麦克弗林致敬,他远远领先于时代。是的,在这个世界里,这听起来并不疯狂。我的意思是,我认为你可以用这些东西发疯。这些东西令人惊讶的局限性是什么?人们会对他们特别难以做的事情感到惊讶吗?我们都看到视频模型难以处理人的手指。是的,手指、手臂、饮酒。是的,还有
奥运会。意大利面。是的。我认为我们通常对这个问题采取了独特的角度,那就是我们专门针对人进行训练。我们的数据都是人。我们专门生成人。我们还将进行条件设置,例如提供骨架的能力。这正是我想要播放的动画。例如,这是我想要你做的确切TikTok舞蹈。它只会让它发生。
这实际上使模型更有可能并且更好地能够学习人类解剖学是什么样子,什么是正常的,什么是异常的。人们确实有六根手指。确实会发生。模型不知道这一点。显然,这不是导致这种情况的训练数据,但如果提供的训练数据不足,它可能无法完全意识到这一点。
展示各种配置的手以及做各种事情。因此,我们的目标是解决人类生成问题,就像一般的演员一样。稀缺性方面也是如此,因为其中一些并不是新问题。关于电影的推论是,迈克尔·贝的电影,预算为2.5亿美元或类似的数字,炸毁了半个洛杉矶,变形金刚或其他什么,我不知道。
成千上万的人去看它,卖座电影,但所有这些人都要支付每张25美元的票价或类似的数字。如果低成本电影能够进入票房,也会发生同样的事情,但票价完全相同。我实际上非常兴奋地看到一个世界,在这个世界中,低预算的电影制作人和视频创作者通常可以创造更多,并且可以做更多复杂的事情,而不仅仅是预算限制。这对电影创作者和一般的创作者来说是一个巨大的障碍。
我认为它只是提升了每个人。我认为工艺可能会发生一些变化,但正如Gaurav提到的,那些高预算的电影,从技术上讲是生成的。它不是合成的,也不是真实的。我意识到其中一些东西是真实的,但这甚至可能会让其中一些方面变得更高级。在竞争格局中,建立如此成功和重要的东西感觉如何?我喜欢这样的想法,即当其他人第一次试图摧毁一家公司时,这家公司已经通过了成熟的阶段。你有没有过这样的经历?
我真的很想知道构建如此快速的东西的更尖锐、更粗糙的方面。任何类似的有趣经历吗?
当然。我的意思是,我认为对于所有这些类型的事情,我们总是坚持我们的使命,并且不担心其他人正在做什么。但是,是的,很多人关心我们正在做什么。事实上,我认为我会说,就更大的公司而言,我认为我们正在看到一个有趣的演变。就像我们处于一个有趣的位置,我们与许多社交网络半合作,因为我们对它们的增长有益。我们创建内容,所有社交网络都需要内容。我们有未加水印的内容,即原创内容。
这对Instagram来说是一个很大的问题。记住,当他们推出Reels时,所有内容都带有TikTok水印。它基本上是回收的TikTok。但我们有很多这种类型的优质内容在我们平台上生成,顺便说一句,每天有成千上万的内容发布到社交媒体上。因此,我们最终成为许多社交网络的宝贵合作伙伴。我们已经看到社交网络格局在这种意义上发生了变化。一个
许多风投公司都会问这个问题,比如,如果Facebook复制你怎么办?如果谷歌复制你怎么办?我认为我们开始看到的是,谷歌和Facebook不再是复制公司了。他们什么都不复制。他们只是在做自己的事情。而复制公司实际上是TikTok或更普遍的字节跳动。我不知道这种转变是如何发生的。Facebook突然变成了好人。我认为马克·扎克伯格现在是一个英雄,因为他
因为他发布了所有这些模型,制作了所有这些开源的东西。突然之间,他的氛围完全改变了。然后我认为TikTok基本上变成了Facebook的样子。捕获、杀死、摧毁现有市场中的所有一切。不要与任何人合作。我认为看看这种情况如何发展将会很有趣。显然,关于禁令以及所有这些事情有很多讨论。我们将
我们将看看这一切将走向何方。但他们的领导层非常清楚我们的存在。他们多次试图消灭我们。值得称赞的是,他们是第一个意识到我们存在的人。他们试图消灭你是什么样子?字面意思是复制产品?责备和复制。他们实际上复制了我们的应用商店描述、我们的网站,并将这些内容逐字逐句地放入他们的新闻稿中,复制我们的品牌颜色,精确的品牌颜色,假装是我们。
超出了你的想象。这太疯狂了,像这样规模的公司竟然会尝试这些策略。但最终,他们创建的软件只是非常平庸。它之所以有效,是因为他们在TikTok上拥有良好的分销渠道。我认为我们获胜是因为我们拥有更好的产品。
似乎所有这些模型的早期阶段都是研究人才最重要的稀缺资源,而且供应极其短缺。你能谈谈你在这方面学到的东西,以及它如何变化吗?你是否仍然只需要少数几个人,其中几个人才能构建最先进的东西?极端研究人才在构建推动所有这些优秀产品的模型中的作用是什么?
因此,人才方面仍在发展中。我认为它还没有完全解决。随着用例的增长,随着越来越多的人意识到可能性,随着越来越多的公司开始尝试解决类似的问题,人才短缺只会越来越严重。人才不是一夜之间就能创造出来的,对吧?在某人被认为在一个领域经验丰富之前,需要多年的经验。
我认为我们仍然会看到人才方面持续的压力,特别是对于构建
构建生成模型、基础模型以及类似的东西。显然,投入到这个领域的风险投资越多,就会产生影响。但我确实认为,有趣的是,构建这类东西并不需要一支军队。它只需要几个人。可能需要一支军队来扩展它并使其真正壮大。但要取得世界一流的成果,可能只需要十几个人甚至更少。你可以用这么小的团队击败世界上所有人。
如果你具备了正确的要素。许多挑战都变成了寻找这些人。你不能出错。你想要一组非常特定的人。你想要一组特定的技能。这一切都是新的。因此,很少有人在这方面有经验。这一切都是最先进的。每天、每周都会有发现和发明。因此,你越关心它,你就越想找到那些真正处于技术前沿的人,他们真正了解今天正在发生的事情。
以及哪些小小的胜利和技巧将使我们比其他人更有优势?所以这仍然是一个挑战。那么我们的责任最终就变成了,我们必须给他们提供所有资源,以便他们能够完成他们的工作。许多这些人都在AI实验室中,无论好坏,至少从该实验室的角度来看,他们都不能发布他们正在研究的任何东西。当你能够
带来我们拥有的某些要素时,无论是计算数据、环境,在招聘谈判等方面实际上并不那么复杂。你认为这些产品的价格会如何随着时间的推移而变化?对于软件来说,这始终是一个奇怪的问题,因为它的边际交付成本为零。许多人一直在谈论,让我们看看,比如说,埃森哲的市值或类似的东西。它基本上是一家市值2500亿美元的公司,销售的是劳动力。
非常昂贵的劳动力,重要的劳动力。你认为AI应用程序会将劳动力预算定价为大幅折扣的劳动力,因为这就是它们正在做的事情,并且正在取代劳动力吗?还是它最终会像所有软件一样定价?我们已经运行了这些剧本20年了,我们知道如何去做。你对人们如何看待AI软件应用程序的定价以及它在未来的均衡状态是什么样的感觉如何?
我不知道我们是否完全理解了这一点。基本上,我认为现在判断还为时过早,因为我们还无法完全取代劳动力,所有不同的方面。所以我们还不知道人们愿意为此支付多少钱。在用例图中,我们就像4、3、4或5%,无论是什么,在这个范围内的东西还处于早期阶段。我们无法完全取代某些工作流程或公司中可能存在的非常繁重的运营流程。
我们将稳步前进,朝着那个方向努力。我认为我们会看到人们愿意为此付出多少。所以我想我们会解决这个问题。其中一个重要的问题是,消费者和B2B之间的划分如何?我认为消费者定价正在清晰地发展。我认为我们开始看到它是什么样子了。看起来它最终会变成消费者订阅。
而且,人们似乎也愿意比以往支付更多一点。例如,传统上,对于App Store上的视频相关应用程序、网络应用程序和Android应用程序等,标准价格大约在7.99美元到12.99美元之间。这被认为是正常的。它采用了一种免费增值商业模式。我认为我们看到不同的是,
例如,对于我们来说,长期以来,我们一直是完全付费的。没有免费产品。你甚至不能免费使用一次。这运作得很好。人们会说,好吧,随便。这是钱。让我们继续吧。所以在旧世界里,这行不通。如果没有更新的技术等等,人们会说,是的,我不为此付费,对吧?我转向下一个。我认为我们开始看到的另一件事是,我们能否每月收取25美元?是的,我们可以。人们正在支付这个价格。而且
所以人们显然愿意支付更高的价格。如果你看看很多不同的AI公司,视频生成公司等等,它们也在这个范围内。人们正在支付所有这些价格。
人们每月支付高达2000美元的消费者订阅费。我认为与以前相比,订阅定价有更大的上涨空间。现在这可能会改变。我认为一个重要的因素可能是,竞争还不够激烈。可能仍然是,世界上可能只有一两种模型,比如,
具有那种质量,而且人们关心那种质量。所以你真的没有很多选择。也许如果有很多这样的特斯拉模型出现,也许未来的价格会下降。这就是我们在消费者方面看到的。然后在B2B方面,我认为我们将弄清楚很多事情,对吧?我认为
那里需要解决的一些重要问题是,企业是否会购买使用未经许可的数据训练的模型?这是一个悬而未决的问题。而且,他们在某种程度上是。我们将看看这一切将如何发展。我们计划更多地转向完全许可的一方。这将成为我们的主要差异化因素之一,因为我们为此处于独特的优势地位。我们实际上以大规模收集数据,因此我们可以实际训练完全许可的模型。
我的感觉是,在最终阶段,不是今天,而是当这个领域变得非常饱和时,也许是很多年以后,我认为像拥有完全许可的模型这样的事情将会成为一个因素,因为你将能够很容易地在竞争性交易中获胜。人们会关心这些事情。人们甚至可能愿意为这种保证或只是许可的代表支付更多费用。
然后我认为除此之外,它实际上归结为我们将能够涵盖多少用例。这是一个重要的问题。好吧,我们今天是5%,但是极限是100%吗?是75%吗?是50%吗?这在哪里停止?我的猜测是我们可以达到100%,或者至少非常接近,仅仅是因为这是一个已解决的问题。我们知道这是可以解决的。我认为如果我们能够做到这一点,我认为视频工作负载在世界上的运作方式将会发生很大的变化。
以及围绕劳动力成本的定价,现在的一个热门话题是种子许可与劳动力成本,或者与劳动力成本对齐等等。我认为人们可能正在急于讨论劳动力论点,即它实际上具有非常相似的路径,或者具有非常相似的路径。事实证明,首席财务官希望这个数字下降。它不是什么特殊的数字。如果你消除了人为因素,我的猜测是这可能会对它施加更大的下行压力。就像,太好了,我们可以用更少的资源做更多的事情。这就像,完美。
无论软件在做什么,无论是编写代码还是自动化的SDR,无论它是什么,都会对这些事情施加下行压力。我认为人们对朝着这个方向前进有点兴奋。不要误解我的意思,朝着产出定价等等是很酷的。我相信那里有一些东西,我们会找到一些平衡点。但我确实认为人们可能比他们应该的更快地朝着这个方向前进,因为在典型的订阅中实际上可能会有更多持续的阿尔法。是的,当然。也许这不是Salesforce的席位,那是
经典的可比物,但需要进行一些市场探索。我们可能还没有完全看到这一点。
我认为整个投资界,风险投资家、增长型股权投资者、公共投资者,几乎每一个投资者都在试图弄清楚如何看待人工智能及其对他们公司、潜在公司、股权估值以及所有正常重要问题的意义。你会如何从桌子的另一边给他们建议?我敢肯定,你已经与许多伟大的投资者谈过话。你的公司已经获得了几位投资者的投资。你认为投资者对人工智能的哪些方面理解得很好?他们觉得哪些方面缺乏足够的了解,因为他们不像你从构建者的角度那样了解细节?请告诉我们你认为投资者做得如何。给他们打个分,或者类似的东西,来衡量他们对人工智能的理解程度。是的,如果我必须打分的话,也许从公开股权方面来看,那里有很多聪明人,所以我不会对他们太苛刻。我认为人们并没有完全意识到这正在发生多大的变化。我们就像每个人都在说那样,但我觉得人们还在继续谈论
哦,所有这些研发支出或资本支出。这就像,价值在哪里等等?我认为人们对大型人工智能实验室的关注太多,这些实验室实际上就像Gaurav之前所说的那样,正在解决人工智能问题。这与一家可能正在创建自动化软件开发人员的公司有着非常、非常不同的使命。
两个截然不同的世界。因此,我认为关注这些领域之外的事情非常重要,以便真正理解这正在如何改变他们的公司内部的情况。我认为今天很难找到一家成功的公司,它没有或没有在探索某种人工智能工具,以完全取代公司内部的活动
或者,换句话说,以另一种能力做更多的事情。我认为这是当今几乎所有成功公司的每个职能的真实写照。这就是你看到很多采用率的地方。所以,即使讨论基础模型与那些只是微调开源模型或其他模型的公司,在将这些工具引入他们的公司中也有大量的阿尔法。因此,如果你正在与某人交谈,我们如何做到这一点并在更大的企业中推广它?
我认为已经有例子了。有大型企业,你进去后,有人前几天告诉我欧莱雅这家美容公司,你可以进去,他们有一个内部GPT,基本上是一个内部大型语言模型。任何员工都可以问任何问题。我不知道这在多大程度上被纳入他们的思考中。我认为人们对这些特定的人工智能实验室及其经营业务的方式过于关注,这与其他一些公司大相径庭,特别是如果他们得到微软的支持的话。
它本质上只是以不同的方式驱动。是的,我认为如果你要进入这些领域,我认为你的观点可能会改变。这绝对可以帮助你更好地理解这实际上将如何改变工作。
我喜欢你对人工智能的无限可能与视频或其他一些事情的有限问题的框架。这是一个引人入胜的分歧。事实上,我认为这同样适用于文本方面。即使在文本方面,我们也已经创造了基本上是人工智能工具的东西。它就像一个盒子里的智能。你可以将智能应用到某些东西上以解决有限的问题。所以
所以,无论是现在的编码,想想在编码环境中。我认为正如Dwight所说,工程师都是聪明人。但这是否意味着我们需要通用人工智能来解决编码问题?不一定,因为......
它实际上所做的只是翻译。想想计算机是如何随着时间推移而发展的。我们过去常常做打孔卡的事情。然后我们编写汇编语言。还有谁知道这个?然后我们编写C++。对,没错。只有你。然后我们编写C++。然后出现了像Python这样的更高级别的语言,进入了现代时代。今天的嘉宾是来自Cognition的Scott。所以他正在构建下一层。是的。
完美。然后我们有点像说,嘿,新的编程语言是英语。这不是一项疯狂的工作。它实际上是一个非常有限的问题。它是一个发明一种新的编程语言的问题,本质上。就像一种更容易让人理解的编程语言,因为人们已经知道它了。它是一种我们已经知道的语言。智能是一个特例。没错,就像通用人工智能的概念一样,哦,我们就像在创造意识。
哦,它就像一个存在的东西,四处走动,做事情,有自己的想法,有自己的梦想和希望等等。也许它会在某个时候创办一家公司。这与解决盒子里的智能完全不同,盒子里的智能实际上已经存在,并且越来越好。我很想把这个比喻再扩展一步到商业模式。关于人工智能业务的大部分评论都集中在基础模型公司上,这些公司有两个问题。
巨大的资本支出用于训练模型,然后是巨大的推理费用。因此,早期经常出现非常低的毛利率,只是为了服务他们每月20美元的订阅产品。在过去的18个月里,推理成本下降了100倍,或者说是某种疯狂的数字。这些成本正在下降。但对商业模式的两个批评是,哦,我的上帝,这场无限的竞赛,我每次都必须花费10倍的资金来构建下一个东西。我什么时候才能赚钱?看起来像
这类更有限的问题具有非常正常、优秀的商业模式。对吗?你的感觉是你们将拥有像普通软件公司一样非常高的毛利率吗?是的,你必须花钱来训练你的基础模型,但这并不是100亿美元。并向我介绍一下商业模式预期、利润率、资本支出等等,这些业务的J曲线是什么样的。教育我们一个
我们对我们业务的具体看法是,有一个有限的成本实际上可以解决这个问题。这个有限的成本可能在数亿美元,但它实际上为我们提供了解决方案。它为我们带来了这样的东西,嘿,这实际上在生成任何CGI工作室可能能够做的事情方面相当不错。
这就是我们需要达到的水平。现在,这会发展吗?是的,它需要微调。但微调通常很便宜。它甚至与从头开始训练基础模型相比,根本不贵。是的,新的数据会进来,我们已经在为此构建一个飞轮。这将是海量的数据。我们将不断地训练模型,并使其了解今天正在发生的事情以及人们今天可能想要生成的事情。但这只是增量微调。这将是支撑业务的低成本。
最重要的是,推理成本正在下降。因此,我认为它将越来越像传统的软件业务。我认为将会发生的是,最初随着这些特斯拉模型的存在,任何真正解决这个问题的人都会有一段时间拥有护城河,只要他们领先。我认为对于我们来说,我们也在同时努力构建这个数据护城河,以便我们永久领先。然后,一旦有足够的数据出现,足够多的人筹集了足够的资金并尝试了完全相同的策略并构建了这些模型,
这可能是很多、很多、很多年以后的事情。它将成为一场软件竞赛,构建工作流程,构建我们所知道的所有传统事物。定价和包装,就像所有这些东西都将变得非常重要。我们已经看到这一切了。人们将使用API,他们将进行B2B消费者,所有这些东西。将会有所有这些用例。我认为这将是真正的竞争发生的地方,并且将会有赢家。我认为我们对此的理论和策略是,赢家将真正由
谁拥有始终优于其他人的最佳模型来决定。所有这些都归结为数据采集、飞轮,以及不断改进模型的能力。但我认为这不会是结束。我认为新的问题将被解锁。我们已经看到了这些其他问题是什么样子。这些问题将有它们自己的基础模型和需要收集的数据。
而且,你可以想象一系列基础模型,它们正在解决整个工作流程中的一系列问题,这些工作流程广泛涵盖视频,甚至可能包括其他类型的媒体,不同类型的用例,如电影、电视,基本上你想要的任何东西。也许是配音,也许是后期制作,我不知道,对吧?许多不同的可能的用例。所以,一如既往,这将会发生。毫无疑问。
你实际上可以看到这些模型将达到成熟的程度。我认为在成熟的业务最终会达到某个阈值方面,我真诚地相信这些可以看起来像非常高利润率的业务,无论是GPU的通缩行为还是一般的计算。这还非常早。就像我们谈论的视频的最新进展等等。你已经看到成本下降了
从H100到H200架构和东西的推出。纵观历史,这些价格从未反转。随着下一个产品的推出,它具有高度的通缩性,因为最终这是他们的商业模式。他们使它们更高效,使它们更强大,无论是什么。因此,我认为一般来说,至少从我的角度来看,这是100%有保证的。但我认为有趣的是,当你在早期阶段,公司在早期阶段,只是谈论初创公司时,
高利润率的业务实际上对我来说像是另一个企业家的完美攻击向量。我认为你应该非常警惕那些在早期阶段运营利润率非常高的公司。对于这些类型的业务,有很多利润扩张的机会。但这同样也适用于后期阶段的公司。我认为你现在正在看到这一点。CRM和运营利润率为80%、90%的公司。这很好。典型的SaaS类型的东西。他们
他们似乎是公司在重新发明这些东西方面的好机会。这些公司不像15、20年前那样拥有同样的定价权。然而,与此同时,那些伟大的公司现在正在考虑这个问题并重新发明自己。因此,这确实感觉有点像,正如我们讨论这些商业模式变化一样,我认为这是一个变化的地面。如果你现在考虑未来,那么在你完成了所有视频,并且你可以用1亿美元的预算创造任何你能想象到的CGI之后,另一边是什么?然后呢?你认为你会做什么?我的意思是,我认为如果我们在合理的时间范围内真正实现这一点,我认为这仅仅是一个开始。因为我认为你可以
超越这一点。我认为这些行业规模巨大。你可以想象一个基于此类技术的社交网络。你可以想象电影和电视被这些类型的技术所主导。你可以想象教育将被彻底改变。这个清单实际上是无穷无尽的。这将是跨多个行业潜在彻底变革的起点。
所以,我认为今天我们对完成这项特定任务感到非常兴奋,但我认为超越此后的可能性实际上是无穷无尽的。你在Snap工作期间有什么重要的经验教训吗?这让我觉得Snap的文化非常独特,而且非常以产品为中心,就像一个学习产品的好地方。你从你在那里工作期间学到了什么教训,以及你留下了什么教训?
我的意思是,我认为Snap,就像任何公司一样,有很多好的方面和一些不好的方面。我认为我能够从Snap获得的好处是能够与许多优秀的人一起工作。我认为Snap在许多方面都处于困境。他们处于你能存在的最具竞争力的业务之一中。本质上是垄断的,在那里很难启动一些东西,很容易被扼杀。只有最大的一个才能真正获胜并生存下来。
在这个领域,他们能够为自己创造一个位置,这主要是因为创新。这仅仅归结于首席执行官。他能够从所有随机的噪音中看到一些东西并理解,是的,这会奏效,没有人会看到它,但我明白它为什么有效。我认为其核心是他对产品和客户的理解程度是没有人能比拟的。
而且没有人能接近它。在公司的历史上,有很多时刻他都像,我们将这样做。每个人都像,不,我们不应该那样做。这主意不好。他会说,我不在乎。我们正在做。我们做到了。这是我们做过的最好的事情。这就是他的直觉所在。Snap几乎以不断创新而闻名。故事来自Snap。
旧的地图位置共享产品和理念来自那里。有很多东西我们都在创新。我认为他们在公众的TikTok方面有点迷失了方向。但这实际上是与他们的支柱愿景战略不符的东西,因为它们是一个私人共享平台。他们的全部目的是低滥用。人们感觉你甚至不能重新分享帖子,因为这是一种通过将该内容重新发布给不应该看到它的人来让某人难堪的方式。
一切都是围绕着感觉良好、玩得开心以及与朋友分享而设计的。
这确实是人们当时关心的所有事情。我认为他们有点错过了TikTok,因为它与之完全相反。它实际上是与所有人分享的。有趣的是,它创造了类似的动态,即与所有人分享实际上让你感觉更私密,因为有很多人你认识的人永远不会看到它。其他人会看到它。但这是细节。我认为关于Snap的缺点......
那里有趣的事情之一,以及那里的教训之一是,产品市场匹配通常与人们在公司日常工作中所做的事情没有太大关系。一旦它存在,它就可以留在那儿,尽管人们采取了行动。所以,我认为在不好的情况下最终会发生的事情是,人们认为他们正在采取的错误行动是
是反向正确的观点,因为,好吧,公司正在发展。所以,当然,我所做的一切都是正确的。但实际上,尽管当时发生了错误的事情,公司仍在发展。因此,很难判断是什么真正导致公司发展,什么是好事,什么是坏事。许多人离开这些类型的产品市场公司时,认为他们所做的一切都是好事,没有坏事,因为公司发展了。
但现实是,公司是在这些行动之外发展的。我认为识别这些是一种我必须努力培养的技能,以了解我们如何真正衡量我们正在推出、正在构建的内容,并了解什么是好事,什么是坏事。
所以我真正感谢这段时间的是能够与那里的首席执行官一起工作。他真的把我带进了圈子。他组建了一个很棒的设计团队。许多决策都是通过设计团队驱动的。这个团队只有10到12个人。
即使公司在IPO后拥有数千甚至数万名员工。所以作为这个团队的一员,向这个团队的优秀成员学习,我通过这个过程发展了我的设计生涯。我认为他能够识别出这个人很适合,并且能够学习和弄清楚这些事情。向他致敬。绝对做得不错。我在这个节目中问每个人的最后一个问题,今天两次做这个很有趣。别人为你做过最善良的事情是什么?
我的意思是,我很难不说最善良的事情可能是我妻子。我们创办了这家公司。我们已经结婚了。我们有了我们的第一个孩子。很难不这么说。这显然可能不会那样发展。我决定不创办公司,不做这些事情。是的,这让我能够承担更多风险。是的,是的。现在我不能用这个答案。是的,没错。是的。
是的,我的意思是,我认为这有点不公平。除此之外,顺便说一句,对我来说,如果我要给你一个不同的答案,我认为那将是我的父母确保我在美国出生。从字面上看,因为我只有在我生命的前几年才在这里。我父亲在东北大学攻读经济学博士学位时,我出生了。
所以他基本上在那里待了四五年,我出生在中间。之后他们搬回了印度。但我拥有美国国籍。如果没有这个,我仍然会在印度。简单而有力。伙计们,非常感谢你们的时间。
谢谢。如果你喜欢这一集,请查看joincolossus.com。在那里,你会找到这个播客的每一集,包括完整的文字记录、节目笔记和学习资源。你还可以注册我们的时事通讯Colossus Weekly,我们会在其中将剧集浓缩成重要的想法、引言等等,并每周分享我们在互联网上找到的最佳内容。
我们希望你喜欢这一集。接下来,敬请期待我和日内瓦资本管理公司投资运营和投资组合管理主管凯蒂·埃伦伯格的对话。凯蒂详细介绍了她与Ridgeline的经验以及她如何从他们的产品中获益最多。要了解更多关于Ridgeline的信息,请务必点击节目说明中的链接。
凯蒂,首先描述一下你在日内瓦关注的是什么,以便在投资方面尽可能好地运作。我是日内瓦资本的投资运营和投资组合管理主管。我的重点是为公司、为投资团队提供最好的支持。你能描述一下日内瓦做什么吗?
我们是一家独立的投资顾问,目前管理的资产超过60亿美元。我们专门从事美国小型和中型成长型股票。所以你有一些高端投资者想要买卖东西,而且我敢肯定,你以不同的方式收集了所有类型的投资者的资金。介于两者之间,我很感兴趣。解决构建投资者基础设施这一挑战的方法有哪些时代?
我们使用了之前的提供商超过30年。他们为我们做得很好。我们拥有从投资组合会计到交易订单管理、报告、对账功能的整套产品。在我们现有的系统上使用了30年后,我认为我们永远无法切换到其他任何东西。所以这甚至不在我的脑海里。我们的首席交易员安迪建议我与Ridgeline会面。他
与Ridgeline合作,安迪和我都听说过Ridgeline。我这样做更多的是为了安迪,而不是因为我真的很想见他们。我们刚刚搬进了我们的办公室。我们没有任何家具,因为我们刚刚搬家。所以我同意在楼下的自助餐厅与他们会面。我想,这将是一个简短的会议的完美场所。老实说,帕特里克,我甚至没有盛装打扮。我穿着牛仔裤。我的头发扎起来了。我完全是在做这个。
作为一种恩惠。我下楼到自助餐厅,我想我正在与尼克会面,然后走进来三个人,杰克和艾莉。我想,哦,
现在有三个了。我这是在做什么?说真的,我的目的是让它快速结束。他们一开始就介绍了他们的公司,以及他们正在招聘谁。这引起了我的注意。他们几乎是在组建一个由技术专家组成的梦幻团队来开发整个软件系统,从查尔斯河和Faxit、彭博社引进人才。我认为,引进最优秀的人才真是太聪明了。
然后他们开始谈论这个单一的数据源。我想,这到底是怎么回事?我甚至无法理解这一点,因为我习惯了所有这些不同的系统和彼此叠加的不同模块。所以我想要了解更多关于这方面的信息。当我与许多其他供应商会面时,他们总是向我做非常高层次的推销。哦,转向我们的公司,这将非常容易等等,
好吧,我知道30年的数据不会是一个容易的转变。所以我喜欢立即向他们提出具有挑战性的问题,这在大多数情况下,其他供应商甚至无法回答这些细节。所以
所以我认为,好吧,我要尝试对Ridgeline采用同样的方法。我问他们一个关于我们的安全主文件的问题。是Allie立即以如此专业的知识回答了我的问题。她立即知道我在谈论这些旧证券,并告诉我他们将如何解决这个问题。所以当我第一次见到Ridgeline时,这是第一家我回到办公室并做笔记的公司,我说,现在这是一家值得关注的公司。
所以我们确实继续与我们的供应商续签了几年的合同。当他们与一家更大的公司合并后,我们注意到我们的服务有所下降。我知道我们想要更好的服务。
与此同时,Nick一直在与我保持联系,并告诉我Ridgeline的最新情况。所以他们邀请我参加Basecamp。我会告诉你,那是我真正下定决心要走哪个方向的地方。在那次会议结束后,我感到很舒服,并且知道,好吧,我认为这些人......
真的可以解决未来的问题。他们正在解决我需要的所有关键任务,我对他们提供的一切都感到非常好奇和印象深刻。我最喜欢的三个方面,显然,是单一数据源。我必须提到即将推出的AI功能。客户门户,这是我们以前没有的东西。这将进一步提高我们季度末处理的效率
但另一方面,是我们与Ridgeline团队建立了这些关系。我的意思是,他们是专家。我们不再只是一个数字。当我们打电话给服务部门时,他们知道我们是谁。他们完全支持我们。
我知道他们不会让我们在这个转型中失败。我们现在能够比以往任何时候都更进一步。现在我们可以真正开始跳出框框思考,我们可以把它带到哪里?Ridgeline是整个包。所以当我查看其他公司时,他们只能解决我们拥有的部分内容和我们需要的部分内容。
Ridgeline是整个包。而且不仅仅是这些,再次强调,它是为整个公司构建的,而不仅仅是运营方面。Ridgeline团队已经成为我们的家人。