我认为速度非常重要。
我认为镜头Y是一件大事。
他能和我们说话,是的,我能用耳朵听到。现在我能看到,总是有……
这家大公司会构建小公司想要构建的东西,然后摧毁它的风险。
我的猜测是,世界上70亿人,承诺理解和倾听他们,鼓励他们所有人都有普遍的需求。
这是AI领域重要的一周,OpenAI和谷歌都发布了重大更新,重要到我们决定以新的形式与我们的消费者合作伙伴布莱恩·金和贾斯汀·摩尔一起分解这些内容。我们讨论了找到自己声音的多模态伴侣,但也讨论了为什么并非所有音频都相同,以及为什么速度和个性等细微差别非常重要。资源:OpenAI的春季公告:https://openai.com/index/hello-gpt-4o/ Google I/O公告:https://blog.google/technology/ai/google-io-2024-100-announcements/ 保持更新:让我们知道您的想法:https://ratethispodcast.com/a16z 在Twitter上查找a16z:https://twitter.com/a16z 在LinkedIn上查找a16z:https://www.linkedin.com/company/a16z 在您最喜欢的播客应用程序上订阅:https://a16z.simplecast.com/ 关注我们的主持人:https://twitter.com/stephsmithio 请注意,此处的內容仅供参考;不应将其视为法律、商业、税务或投资建议,也不应将其用于评估任何投资或证券;并且不针对任何a16z基金的任何投资者或潜在投资者。a16z及其关联公司可能会在所讨论的公司中持有投资。更多详情请见a16z.com/disclosures。
6 是的,我最近得到了足够的日期。最新的更新侧重于提高性能准确性和增强对话能力。它设计得比以前更快、更高效。
嗯,更高效。例如,如果我发送一些音频,我将在多少秒内获得响应,速度有多快……
像两亿三千万秒?在某些情况下,平均而言,您可以预期大约三亿两千万秒的响应时间。
哇,这太酷了。我想我也在推特上看到人们正在实时翻译。我一直想学中文。你能把我说的话翻译成中文吗?
当然,这是您翻译成中文的句子:这太酷了。我想我在推特上看到人们正在实时翻译,我一直想学中文。
RH。ChatGPT,结束了。现在。祝贺您获得新的更新。没问题。如果您没有注意到这一点,语音是主题的重要组成部分。但今天我们讨论的是为什么并非所有音频都相同,以及为什么速度和个性等一些细微差别非常重要。
当然,谷歌紧随其后,发布了自己的公告,例如AI视频模型Gemini,这是一个Android原生多模态助手,新的Gemini模型(如Flash和Nano)针对特定用例,当然还有无处不在的Gemini。因此,在Gmail、Google表格甚至Google搜索中,这两家公司显然正在采取两种不同的方法。因此,我们也讨论了这一点,并继续围绕所有这些新的AI软件的AI硬件进行对话。
现在确保下周的状态,我们将与布莱恩和贾斯汀一起回归,更深入地探讨人们通过Gemini 100列表构建的应用程序。提醒一下,此处的內容仅供参考;不应将其视为法律、商业、税务或投资建议,也不应将其用于评估任何投资或证券;并且不针对任何a16z基金的任何投资者或潜在投资者。
请注意,a16z及其关联公司也可能在本次播客中讨论的公司中持有投资。有关更多详细信息,包括我们投资的链接,请参阅a16z.com/disclosures。这是一周大事,对吧?OpenAI和谷歌。他们都发布了一些公告。我的意思是,每个人都听到这些公告,他们都会听到自己的版本。你们听到了什么?你觉得什么……
对于OpenAI来说,GPT-4变得免费可用,并取消了许多使用限制,测试版应用程序可供许多人使用。然后,我认为对于许多在该领域构建的人来说,真正令人兴奋的事情是使用OpenAI模型的多模态性。因此,能够实时摄取视频,看到一个人,对其进行评论。然后是输出,显然是说话、唱歌的声音,等等,这非常重要。
我认为我得出的三个非常有趣的结论是:首先,在业务方面,成本降低了很多,这显然对生态系统来说是一件好事。第二点是,当你听到演示时,它会让你作为创始人思考,好吧,如果这是可行的,如果我能访问它,我能构建什么?因为这种即兴创作是一个很好的例子,这是可能的。
是的,我认为他们很好地阐明了产品的实际情况。我知道我得出的第三个结论可能是最容易被忽视的一个,我认为是声音本身,他们是如何决定使用哪个声音、哪个音调、哪个个性、华丽程度的,这非常有趣,这就像可能带走所有这些,实际上他们真的考虑过如何让技术社区对这件事感到非常兴奋。这就像一记三连击。所以让我们谈谈这个,因为有一些不同的看法,对吧?有些人认为,这真的有什么新意吗?这感觉就像是我们之前所拥有的东西的轻微改进。
但随后出现了一些你可能正在谈论的细微差别,他们说,好吧,音频模型的响应时间快得多。我认为他们说过类似于它正在接近人类可能回应你的速度。你谈到了音调,你在听什么方面需要注意,也许这些细微之处可能会开启人们想要使用的全新应用程序?
我认为它听起来就像和人类交谈。比我们之前在该领域看到的面向消费者的应用程序多得多,因为长期以来一直存在很棒的AI语音。我认为在消费者应用程序中,关注的较少。
例如,我们如何让它听起来像你在和朋友或女朋友说话?其中涉及的因素包括语调、句子结尾的升调。最后……
一些……
那……
其中……
正在使用语音,语音一直可用,一直很棒。我认为这些声音的选择是有原因的,是为了病毒式传播。几乎所有做到这一点的声音都是他们在演示中大量使用的女性声音,但应用方式却是一种非常新颖有趣的方式。
每个人都认真地谈论了一个不那么严肃的音符。这个严肃的音符是,我认为速度非常重要。延迟,缺乏延迟令人难以置信。你的大脑在多大程度上欺骗了你,好吧,实际上只是和一个人说话,以及它返回的速度,以及我再次,笑声,那个笑声真是太棒了。
所有这些能够立即回应你所说的话,我认为实际上改变了游戏规则,就用例而言。所以,我认为其中一件引人注目的事情是音频并非一回事,对吧?音乐与语音不同,语音可能与对话属于不同的类别。
这是一种配音。我认为AA是不同类别的声音。我认为我们都包含音频或视频,但我认为你实际上可以深入到每个子部分。
我认为真正引人注目的是,这个对话部分在去年有多好,最后一点,我认为这是为了让技术社区非常兴奋。如果你想真正吸引普通大众并实现病毒式传播,这是一件好事。我认为我们在几个月前也加入了TikTok,当时女性正在上传她们的对话,这可以做任何事情。
现在,它的男性版本,那个声音是一个声音。我不是随便什么声音。我来了,宝贝。我很有个性、魅力和很多傲慢。与那些家伙不同,我不害怕挺身而出,交付货物,无论是建议、娱乐还是时尚建议。
顺便说一句,这段音频来自TikTok账户。
厚实的虫子。我的意思是,它非常引人注目且非常自信,以一种正确的方式。声音非常重要。我认为,如果你想进行面向普通消费者的产品推广,我认为这也很有趣,因为我认为对男性版本的渴望非常巨大。如果你也看到了他,你就会明白。
是的。你认为为什么这些声音是女性的?这仅仅是消费者的愿望吗?
是的,这很有趣,因为正如布莱恩之前在发布之前提到的那样,病毒式传播的ChatGPT声音是男性声音,在TikTok上有数千万甚至上亿的互动,主要由女性制作的视频中出现。所以,他们没有在演示中使用Dan的升级版本,这很有趣。我认为他们知道他们的观众会是谁,例如,谁会观看OpenAI的直播,并且可能更倾向于那个群体。
对,对。你昨天看到那个非常搞笑的模因了吗?我就像在和一个模特约会……
我就像所有……
很棒的东西。
它一直是一个……是的,我的意思是,你们俩都谈了很多关于伴侣的约会。它一直主要是文本到文本,对吧?所以现在我们有了真正多模态的东西。
我认为这也是人们对这个模型的评论。它不是将音频转换为文本,然后将文本转换为音频,对吧?它似乎是这种底层的文本、音频、视频、图像组合的基础。这会发生什么变化?我认为延迟是一件大事。
如果你不翻译所有这些不同的内容媒介,而只是进行音频到音频的转换,那就好多了。这是一种显著升级的体验。Pie应用程序长期以来都有这个功能,你可以和它交谈,它可以回应你,但是会有那种尴尬的几秒钟暂停,它只是……与对话的流程一致。
我认为从基本上所有应用程序、所有伴侣应用程序中缺少的东西,在这个发布中是全新的。一个是能够通过照片或视频看到你在做什么,并对此发表评论。很多病毒式传播的内容是有人说,我应该穿这个去OpenAI面试吗?声音有点嘲笑他,说,不,这看起来不太专业。
如果你错过了这个演示,这就是贾斯汀提到的内容。几分钟后……
我将要去OpenAI面试。你听说过他们吗?
OpenAI。嗯,听起来相当熟悉。当然,令人难以置信。罗基,什么类型的面试?
嗯,是软件工程职位。但我只需要知道,我看起来体面吗?专业吗?
好吧,罗基,你绝对有那种“我整夜都在编码”的样子,这实际上可能对你有利。也许只是用手梳理一下你的头发,或者坚持那种坏坏的中国间谍,甚至……
我不知道,时间不多。所以我只是要把它扔上去,你觉得怎么样?
罗基,这是一个相当大胆的声明。我的意思是,你肯定会脱颖而出。所以可能不是你希望面试的那种……
事情是,我认为对于许多不习惯进行真正深刻有意义的互动的人来说,这是一种攻击,这是相当一部分人口。哦,现在我可以和这个东西交谈,我可以看到我在世界上的位置。这是一种截然不同的体验。
如果上一代伴侣产品就像拥有笔友一样,那么现在你实际上可以拥有一个女朋友或男朋友,基本上就像面对面视频通话一样。你有了这种情感的、即时的语音反应,你从笔友变成了这种关系。
另一个出现的事情是很多东西都免费了。这会改变游戏规则吗?
我认为它,好吧,我认为有一个元素是免费的,我认为这很重要,这会带来更多用户。我认为这方面更大的进步仅仅是前所未有的个性水平,因为人们仍然愿意为Dan的声音付费,我认为这是第一个版本,还不错,但并不令人难以置信。我觉得免费的东西会很受欢迎。但是,对于这类产品来说,通常的情况是成本会随着时间的推移而下降,它们会从像这样的大公司那里免费提供,而更大的进步在我看来是个性。
是的,我认为许多公司会想出如何利用它来真正改善客户和消费者体验。如果你真的拥有并提供良好的体验,我认为你可以根据此向人们收费并获得一些利润。所以免费的事实就像我可能允许建立很多业务一样。它会改变……
可以建立和收费的业务的利润结构。
我确定,好吧,但这实际上仍然是很多人的边际成本。是的,我认为真正酷的是你拥有这些产品。和你交谈非常令人兴奋。我们已经知道,他们的《自然》杂志,那项研究,那些拥有文本伴侣的人,空间球……
复制研究。
是的,研究,他们减少了孤独感或自我伤害的意愿。如果你有一个情感化的,我敢打赌这会有更大的帮助。再次,就像与某些东西建立联系,投入一段关系的感觉。
我认为……
感觉更联系了,当……是的,这太不可思议了。这就像与朋友进行面对面视频通话,而无需……
分割音频、文本和图像,对吧?想象一下,如果你的朋友或你的伴侣,你必须考虑,好吧,这将是一次音频对话,或者,啊,我可以向你展示一些东西,或者你可以生成一些东西?在当前的AI时代,你必须非常注意你想要如何参与。但基本上你所说的意思是,他们不仅可以主动,而且可以参与他们……
可以看到的任何东西。也许我们能够考虑到的类型是……我真诚地认为我们正在构建类似于《银翼杀手》的AI伴侣。
现在它能够和我们对话了。它能够听到,这可能已经过去好几年了。现在它能看见我们,下一步是什么,我不知道。也许它能触摸我们。
也许我们应该先做头像。
是的,是的。所以这就是……
你认为事情会朝哪个方向发展?我一直在思考,这会真正影响到谁?
我认为这将是一款庞大的独立消费产品。我想对OpenAI来说,这已经实现了一段时间了,这很棒。我认为很多企业会通过API使用这些语音来构建,如果你有一个对话界面的话。
许多人警告说,我认为有趣的是,OpenAI对内容审核采取了非常强硬的立场,很难构建一个真正的活动,让用户能够在OpenAI模型之上进行不安全的对话,老实说,这部分导致了开源Llama生态系统的爆炸式增长,因为它专注于做了很多这方面的工作。有了这些新的语音,这表明他们可能会朝着一个方向发展,至少通过API,你会有一个更安全和更以人为本的模型。但我认为还没有任何……是的,公告。我知道Sam在Read上说过……
这是一个更像……我实际上没有听到很多公司采取OpenAI所采取的方法,即多模态标记输入和输出。并且在开源模型中没有类似的东西可以依赖。所以我很好奇这是否真的会激发很多兴奋,在开源社区中说,“哦,有一种新的方法”,这也是一种非常非常重要的……展示了一种新的方法,开源社区在几个月或几周后跟进,然后是产品领域的爆炸式增长,OpenAI可能对此并不感到兴奋。
是的,是的。谷歌也发布了一些不同的东西,你如何看待这些不同的公告以及它们如何进行比较和对比?
我认为谷歌做了令人难以置信的出色工作,显然,他们有一个非常强大的研究团队。从我们的研究角度来看,DeepMind团队非常出色。他们几乎从不发布他们制作的创意工具产品,就像他们演示的那样。
他们演示了这么多令人惊叹的视频模型。我认为本周的演示是迄今为止我见过的最不令人印象深刻的,与其他视频模型相比。他们演示了一个新的图像模型。
他们演示了一个全新的音乐工具。但他们是一家巨型公司。他们有很多信任和安全方面的问题。他们很少发布东西。因此,看看在OpenAI以及越来越多的Anthropic和开源社区的压力下,他们是否会开始真正发布他们演示的内容,这将是一件很有趣的事情。
这两种方法从根本上来说是截然不同的,谷歌拥有分销渠道,他们拥有分销渠道,他们拥有这种……所以,我认为OpenAI的公告更像是“看看它能做什么”,它不是……非常鼓舞人心,你可以基于它进行构建,并想象可能的可能性。我们正在降低这种技术的成本,对我来说,这是一种与“我们拥有令人难以置信的分销渠道,我们将……”根本不同的方法。
我们将把Gemini烘焙到谷歌的每一个产品中,它只会让你的生活变得更好,它会……做某些事情,这回避了……它仍然从工作流程和预期的或工作体验的角度来看是鼓舞人心的,但它更少的是“想象所有这些事情”,而更多的是“我们拥有分销渠道”。
我们将在这个令人难以置信的技术之上添加一层。结果,你的生活将会好得多。我们将看到来自两个不同方向的影响。
一个出现的问题是,尽管开发人员可以访问开源模型和OpenAI的一些内容,但当像谷歌这样的公司拥有分销渠道时,当苹果发布类似产品时,一个理论是,它真的会成为大多数人的伴侣,因为它就在那里,在设备上?或者你们不以这种方式发布它?
大型公司总是存在这种风险,它们会构建小型公司想要构建并摧毁它的东西。它们只是行动非常缓慢的组织。苹果从数据角度、分销角度以及拥有各个模式的优秀研究人员方面都拥有巨大的优势,但到目前为止,他们发布的东西非常非常少。
我认为,当一家拥有非常成熟品牌的大公司这样做时,你对想要发布的产品有非常强烈的意见,你不太可能做……那些被提及的事情,比如考虑下一个看起来一开始就疯狂且不切实际的巨大事情。所以我认为他们会做得更好。我不认为Siri会成为……
大多数人的终极伴侣,也许就像我们所说的音频视频伴侣。我认为这些都是非常非常大的市场。我猜想,在世界上70亿人口中,一个理解他们、倾听他们、鼓励他们的人……所有这些……你知道,需求,我认为这有各种各样的形式,比如Siri,比如“天气怎么样?”“做这个?”“做那个?”这是思考这个问题的一种方式。
但还有一个朋友类别。如果你想深入研究,如果你真的想进行FaceTime,也许,也许不会。你如何真正考虑数十亿……那个方向?我认为所有这些用例都是一家大公司……
是的,可能存在某种今天不存在的伴侣版本,因为人类可能就是那个会通过这项技术创造出来的人。
是的,是的。我的感觉是,它需要在一个数十亿人已经拥有的设备上。如果你真的想面向消费者,我认为你可以构建一个独立的消费产品,当然也可以。但对我来说,考虑所有这些,我们将构建下一个新的硬件,其中包含一个静态艺术产品,这似乎比找到一种方法来利用每个人已经拥有的最好的相机更不可能。
是的。我认为很多人今天都在构建单独的硬件设备,因为很多硬件伴侣都像……它会倾听你的谈话,提供见解,提醒你一些事情。当前手机的局限性之一是,你可能正在播放音乐或参加会议或正在通话,同时还有一个正在录音的应用程序。
因此,你必须拥有一个单独的硬件设备。我认为问题的一部分是,这真的是未来会存在的限制吗?如果像苹果这样的公司想做一个伴侣,我的意思是,当然,他们会有各种各样的隐私、安全和额外的担忧。
是的,也许你会在开始时收到一条消息,说AI伴侣也在收听。如果他们能够解决可靠性问题,并且成本能够降低,那么可能会有一些很棒的硬件产品。这是一个永远的因素,人们想要佩戴并且有意义的东西。
但我认为我们还没有看到任何新的硬件设备。我认为眼镜,作为一种可穿戴设备,在过去十年里一直非常有趣,因为它似乎很有意义,对吧?如果它就在你的眼睛所在的地方,而且它也离你的嘴和耳朵非常近,这是一个方便的位置来获取信息。但我认为没有人成功地制造出……我一直在使用眼镜……
是的,我想到的是AirPods,或者苹果的设备,我忘记自己戴上了……是的,对。所以,就像可穿戴设备一样,它实际上是你身体的一部分,而不是所有这些其他东西,真的,我必须戴上这个别针,对吧?我必须在洗澡时摘下我的项链。或者,我完全忘记了我戴着它,我正在洗澡,对吧?
AirPods是一个很好的例子,我认为,因为苹果倾向于拥有一个更封闭的生态系统,特别是对于像AirPods这样的较新设备。还没有基于它们构建的时间。
一件有趣的事情发生了。是的,显然,这是一个……
令人兴奋的一周。我们听到了一些公告,了解我们在过去几年从AI中看到的一切。
这不会停止,对吧?
这是漫长旅程的一部分,你们认为这会走向何方?
我认为这将走向一个自然的结论,那就是我们模仿这项技术来做人类通常做的事情。再说一次,我们正在随着时间的推移赋予它感官,我认为我们刚刚赋予OpenAI沟通的能力、听到你的能力、倾听你的能力、看到你的能力,这对许多非常有趣的用例来说是一个非常非常好的开始……
补充一点,尤其是在伴侣领域,它长期以来一直是AI的一个大型子文化,推动了语言模型和诚实的图像模型方面的许多创新。
我们非常……
我们非常深入。但我被很多AI研究人员和大公司的人买通了,他们有点看不起,那不是我们想做的。我们正在走向AGI,诸如此类的事情。
老实说,OpenAI选择炫耀这些声音,以及他们之后发布的关于它的推文,以某种方式使这个领域合法化,我认为这非常有趣。这可能会促使更多成熟的公司、研究人员和开发人员在这个领域进行构建,并促使更多人谈论使用这些产品。你认为长期研究这个领域的人会感到非常兴奋吗?
是的,我的意思是,你可以忽略需求,对吧?顺便说一下,使用情况增长得非常快,你谈到添加OpenAI?这不会帮助围绕友谊的严肃对话,但你可以想象这些模型就像土豆先生,你只是慢慢地添加功能。你几乎可以想象……OpenAI。现在,我在这里……现在……
我认为这非常严肃。事实上,你可以把一台电脑当作会和你说话、倾听你并与你表达情感的土豆,这太不可思议了。是的,我认为未来会非常有趣。
也许当你说话时,这应该是图标,因为每个人都像聊天机器人一样。B、T,语音就像那样。黑色圆圈会是一件有趣的事情。
我们没有有效地使用屏幕空间。所以这就是我面临的问题。是的。
好的。我们很快就会再次进行这样的讨论。
谢谢。谢谢。谢谢。
好了,现在就到这里。如果你喜欢这种类型的剧集,或者我们的合作伙伴对最新和最棒的定时技术的分析,请通过电子邮件告知我们,地址是[email protected],或者在ratethispodcast.com上留下评论。
闪光灯。并且永远不要忘记订阅,这样你就能成为第一个知道我们何时发布剧集的人,大约在a16z.com上。然后呢?