我相信你们会收到很多相互冲突的意见。在我们继续之前,我想问一下,因为我们正好在讨论这个话题,你们是如何让音频变得引人入胜的?这不仅对深度探讨有用,对我们作为播客主持人也很重要。什么是引人入胜的?如果你能为我们分解一下,那就太好了。
我可以尝试一下,虽然我并不敢称自己是专家。
所以我会给你一些建议,比如语调和速度的变化。你知道,这是一种写作建议,比如这句话有五个单词,而那句话有三个单词。这种建议就是要让你在写作中加入兴奋感和笑声等等,但除此之外,你还可以如何分解呢?
基本的结构显然不能游离不定。需要有一个最终目标,声音要朝着这个目标前进,无论是人类的还是人工的。我发现一个常见的问题是,如果两个人之间总是意见一致,那就不太好听。因此,需要有某种紧张感和悬念,比如保留一些信息,听故事时,你会逐渐了解更多。
音频的吸引力可能更为重要,因为你实际上没有能力像翻阅书籍那样快速浏览内容。你可能在开车,或者在其他地方,这样你就会被吸引,因为有悬念。这也是很多播客的工作方式,虽然不一定是访谈,但很多真实犯罪和娱乐类节目都是通过逐步展开信息来吸引听众的。这也回到了内容转化的主题,比如你可能是从维基百科的某个历史故事开始的,维基百科的内容通常会在第一段就直接给出信息。
我们本可以选择一种方式,比如让某个人直接叙述这个故事,这可能对某些观众有效。我想这就是我对标准历史课程的想象。但因为我们试图将其放入这种双人对话的格式中,我们注入了不同的观点,而不是一开始就给出所有信息。
也许你会抓住一个主题,深入探讨,然后再试图将自己带回主线。这主要是从脚本的设置角度来看。至于音频,我之前提到过,它试图尽可能接近人类的语言,这是我们迄今为止发现的成功之处。
是的,音频中有插入语。当你听两个人交谈时,会有很多“是的,是的,对吧?”以及很多质疑的声音,比如“哦,真的吗?”
你觉得怎么样?我注意到了这一点,这太棒了。
完全正确,确实如此。
我的问题是,你们是否请了语音专家来做这些,还是你们自己想出来的?你们可以说,好的,和一群小说作家谈谈,看看如何让内容更引人入胜。或者是喜剧作家,或者其他任何需要让内容引人入胜的领域。
是的,但音频是什么呢?确实有专业领域在研究这个,而我们作为AI工程师只是随意摸索。
这是个好主意,但你们显然没有这样做。
是的,我的猜测是,你们没有。确实,有些人会认为,制作引人入胜的音频需要有语言学专家在场,但实际上并非如此,因为这个人曾在语言学领域学习,而现在是工程师。他说,他的许多同学并不擅长语言,他们知道如何分析语言以及语言中的数学模式和节奏,但这并不意味着他们在口语或写作上会很流利。
所以,我认为我们还没有在音频格式上投资专家,但也许将来会。
这真是太有趣了。我认为有一个非常人性化的问题,那就是:什么使某件事变得有趣?还有一个更深层次的问题是:我们都在寻找什么样的质量?是需要有人搞笑吗?
有些东西必须是娱乐性的,有些东西必须直截了当。我认为,当你试图提炼这些时,这就是我们在这个实验中学到的有趣之处。我们只推出了一种格式,因此我们必须将我们对有趣事物的所有信念浓缩到一个包裹中。
因此,我认为我们了解到,与聊天机器人互动在最初是新奇的,但并不有趣。人类才是让与聊天机器人互动变得有趣的原因。
我会尝试一下,像是“有趣”这个词的拼写。人们与之互动的乐趣在于,你可以给它添加自己的风格。
但这意味着要翻转这个概念,告诉它:“现在你来有趣。”你给聊天机器人机会去做这件事,而这并不是聊天机器人本身。它只是音频,而是那种质感,我认为这真的让它活了过来。
正如我们在这里描述的那样,我现在必须引导你走向有关商业化的路径,我该如何做到这一点?我确实认为你需要专家。我认为我们会在未来与专家合作,但我认为这必须是在我们正在构建的下一个项目的背景下。
我想我在这里想要改变什么?我根本相信需要改进的是什么?我认为我们仍然需要进行更多的研究,以了解人们实际上在使用这个工具做什么。我们现在仍处于早期阶段,甚至还不到一个月。
是的,我认为另一个要素是,你带来的都是你自己的资料。你对这些资料有一定的了解,或者你关心这些资料。因此,我认为这也改变了整个局面。你关心的是这些资料的动态,但你只希望它足够好,能够引人入胜,因为最终他们谈论的是你的抵押贷款契约或其他任何事情。
从主题本身来看,这很有趣,甚至不考虑协议和缓慢揭示的信息。
我认为这是一个大问题。也许如果我画出一个图,如果有人在朗读它,那就是绝对的糟糕。
但你们是否会为幽默而提示?这是个难题,对吧?
我认为这更像是一种引导方式,尽可能地引出幽默。我认为幽默实际上是最难的事情之一。
但我不知道这是否是人类的。
是的,但你看到那个鸡的例子了吗?好的。
如果你还没有看到。
在Threads上有一个视频,我认为这是马尔科·王的作品。
欢迎来到今天的深度探讨。哦,是的,准备好迎接有趣的内容,因为我们要深入探讨鸡,鸡,鸡,鸡,鸡。
你没听错,来自道格·宗克。
是的,你听到这个标题是正确的。
今天的听众,你们将需要我们的帮助。
我完全可以理解为什么。绝对是密集的,令人困惑,充满了比KFC自助餐还多的鸡肉。
这太有趣了!所以像这样的内容,真的令人愉悦,令人惊讶。但幽默并不是我们所提示的。
幽默也是上下文相关的。我们意识到,虽然我们没有为幽默提示,但我们确实为其他许多事情提供了提示,这些事情引出了幽默。
我认为关于生成内容的事情,如果我们看看YouTube,我们在YouTube上制作视频,很多人都在缩略图上大喊大叫以获得点击。每个人都有一种“你需要做什么才能获得点击”的元思维。
但我认为在你们的产品中,另一边并没有实际的创作者投入时间,因此你们实际上可以生成一种可能并不普遍吸引人的内容。
你知道,我认为这最有趣的事情是,是否有办法让每个视频都能更接近你的口味。
当你观看时,这就是我认为AI的承诺,我们只是触及了这一点。每次我从某人那里获得信息时,他们都是以他们的首选方式将其传递给我的。对吧?如果有人给我一个PDF,那就是一个PDF。如果有人给我一百页的幻灯片,那就是我将要阅读的格式。
但我认为我们现在生活在一个转变的时代,转变真的很可能。比如,我不想阅读一百页的幻灯片,但我愿意在回家的路上听一个十六分钟的音频概述。我认为这真的很新颖,这为我们铺平了道路,可能是我们想要但没有预料到的。
我还认为你们会听到很多通常不会有内容制作的内容。我看到一个TikTok,一个女人上传了她2004年的日记。
当然,没人会制作关于日记的播客。希望不是,这听起来有点尴尬,有点诡异。
但她正在进行这种实时的倾听,哦,这是我日记的播客。现在听起来很有趣,我们可以一起听,但这种联系是个人的。她与她的信息以完全不同的方式互动,我认为这就是一个超级有趣的空间。
我正在为自己创造内容,以适合我想要的方式消费它。或者人们比较退休计划选项,没人会给你这样的内容,关于你个人的财务状况。
即使在我们开始这个实验时,很多目标都是为了处理一些非常冷门的内容,看看我们能如何转化它。如果你查看山景城的市议会会议记录,你永远不会去阅读它,但如果它是一个三分钟的摘要,那就会很有趣。
如果你有一个系统,一个提示,能够覆盖你所投入的一切。
你可以将其串联起来。
也许这真的很有趣。你知道,我正在努力弄清楚你们与其他人相比做对了什么。我认为你们对AI的处理方式与我交谈过的许多构建者有些不同。
我不知道这是什么。你说的,我必须转移到我身上。但这就像人们将AI视为一种工具,但通常它只是执行他们的命令。你们真正做的是加载这两个虚拟代理。
我不知道你们是否曾经说过“代理”这个词,但你们让这两个虚拟人类存在,并让他们从自己的观点出发,允许他们以某种方式生活。这准确吗?
我认为这接近准确。一般来说,我会小心地说,哦,你知道,让这些角色存在。但我认为,回到你之前的问题,是什么让它变得有趣,这就是让它变得有趣的原因。
我需要做到这一点,才能让它变得有趣。我认为这是一项值得挑战的工作。我还认为,这很有趣,因为他们对这个话题感兴趣。
这是否有趣?
是的,拥有两个退休计划是否有趣?不,但听这两个人谈论它,你会觉得这是最棒的发明。就像,深入探讨401k与Chase的比较,或者其他任何事情。
我知道,他们确实会说“你看这个”。
我知道,我知道。我梦到过这件事,抱歉。
我还有几个问题,关于这个工程的事情,显然其中一些只是我在创造性地询问它是如何工作的。你们如何在何时信任AI来为你们做决定?换句话说,作为今天的产品。
你想以某种方式改进它。你是将其工程化到系统中,像写代码一样确保它发生,还是仅仅将其放入提示中,希望LLM为你完成?
你知道我的意思吗?具体来说,是关于一般产品的事情。我认为这是人们正在努力解决的一个问题。
有些人会说,复合AI的人和大型AI的人。复合AI的人会说,Databricks有很多小模型,将它们串联在一起以生成输出。这是确定性的,你可以控制每一个部分,最终生成的内容。而OpenAI的人则完全相反,写一个巨大的提示,让模型自己去解决。