We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

很好也很贵？OpenAI Realtime API 一手体验和 Voice AI 的未来

2024/10/7

编码人声

AI Deep Dive AI Insights AI Chapters Transcript

People

朱

朱峰

创立并运营「津津乐道播客网络」，专注于科技和技术领域的播客内容创作和分享。

钟

钟凯祺 Cage

实时多模态 AI 领域的专家，「海外独角兽」公司 AI 研究领袖。

Topics

普列斯(Plutoless): OpenAI Realtime API的出现，标志着语音交互进入了一个新的阶段，它直接提供语音进语音出的模型，避免了以往繁琐的语音转录、大模型推理和语音合成的步骤，极大地降低了延迟，提升了用户体验。然而，其高昂的成本和复杂的集成过程也给开发者带来了挑战。TEN Framework旨在解决多模态AI集成复杂度高的问题，通过模块化提供音视频和AI能力，方便开发者快速构建多模态实时交互场景。目前，基于TEN Framework的开发者已经尝试了AI游戏、AI助手、虚拟主播等应用场景，并开始探索RAG在实时交互中的应用，通过多线程处理和预处理等方式优化RAG的实时性，以提升用户体验。钟凯祺 Cage: OpenAI Realtime API的发布，开发者普遍反映其体验提升显著，延迟降低，alignment改进，但高昂的成本成为主要阻碍。未来，随着技术的进步和成本的下降，实时语音AI将在更多场景中落地，例如陪伴、心理咨询、私人助理等。目前高价值的应用场景包括销售客服等，但其准确性和稳定性仍需进一步提升。Voice Agent象限图显示，对准确度和实时性要求高的场景价值最高，但难度也最大；而对实时性要求不高，创造力要求高的场景，未来发展潜力巨大。朱峰: OpenAI Realtime API的出现，推动了实时互联网的发展，未来人机交互将更加实时化、多模态化。实时互联网将成为基础设施，AI将成为其中一部分，并与人、与其他AI进行实时互动。 AI的应用将改变人们获取信息和服务的方式，例如个性化定制的软件和内容，以及多Agent协同完成任务。然而，AI安全问题也日益突出，需要关注AI的决策过程和可解释性，并借鉴运动员与教练的合作模式，在技术创新和安全规范之间取得平衡。

Deep Dive

Key Insights

What is the main advantage of OpenAI's Real-Time API?

The main advantage of OpenAI's Real-Time API is its ability to provide a seamless 'voice-in, voice-out' experience, eliminating the need to chain multiple models for transcription, inference, and text-to-speech conversion. This significantly reduces latency, making interactions with AI more natural and fluid.

Why is the cost of using OpenAI's Real-Time API considered high?

The cost is high because the API processes audio data in real-time, which requires continuous high-frequency data transmission via WebSocket. Additionally, the API accumulates audio tokens from previous interactions, leading to higher token consumption as conversations progress. This results in a cost of approximately $1 per minute, making it expensive for many use cases.

What are some potential use cases for OpenAI's Real-Time API?

Potential use cases include fitness coaching, language learning, sales, customer service, AI gaming, virtual assistants, and virtual AI hosts. These applications benefit from the API's low latency and natural interaction capabilities, making them suitable for high-value scenarios where real-time communication is crucial.

How does OpenAI's Real-Time API handle interruptions in conversations?

The API supports real-time state management, allowing users to interrupt the AI mid-response. This ensures that the AI can stop speaking immediately when interrupted, enhancing the natural flow of conversation and improving user experience.

What challenges do developers face when integrating OpenAI's Real-Time API?

Developers face challenges such as the complexity of integrating WebSocket APIs, managing real-time audio data transmission, and handling network latency. Additionally, the API requires developers to manage stateful conversations, which is more complex than traditional RESTful APIs. The high cost of the API also limits its accessibility for many developers.

How does OpenAI's Real-Time API compare to traditional STT and TTS models?

OpenAI's Real-Time API bypasses the need for separate STT (Speech-to-Text) and TTS (Text-to-Speech) models by providing a direct 'voice-in, voice-out' model. This reduces latency significantly compared to traditional methods, where audio is processed asynchronously through multiple steps. However, the API still allows for optional STT and TTS integration for specific use cases.

What is the future of real-time multimodal AI according to the podcast?

The future of real-time multimodal AI involves more natural and immersive interactions, where AI can handle multiple modalities like audio, video, and text seamlessly. This will enable applications like real-time language translation, virtual assistants, and AI-driven content creation. The integration of AI into daily life will make real-time interactions more common, transforming how we communicate and interact with technology.

What role does the TEN Framework play in real-time multimodal AI?

The TEN Framework simplifies the integration of real-time multimodal AI by modularizing audio and video capabilities, making it easier for developers to combine these with AI functionalities. It focuses on providing low-latency, high-performance transmission channels and state management, enabling developers to create applications like voice-to-voice or video-to-video interactions more efficiently.

How does OpenAI's Real-Time API handle multilingual conversations?

The API supports seamless language switching, allowing users to converse in multiple languages without needing to chain separate models for each language. This capability enhances the user experience in multilingual scenarios, making it easier to interact with AI in diverse linguistic contexts.

What are the limitations of OpenAI's Real-Time API in terms of video understanding?

The API currently focuses on audio interactions and does not fully support video understanding. Video comprehension is more complex due to the lack of suitable training data and the low signal-to-noise ratio in video content. This makes it challenging for AI to interpret subtle visual cues like microexpressions, limiting its ability to fully understand and respond to video inputs.

Shownotes Transcript

本节目由津津乐道制作播出各位听众大家好这里是 RT 开发者社区与津津乐道博客网络联合制作的博客节目编码人生我们新的一期节目又跟大家见面了今天呢整封我们假期结束后的呃

第一天我们的节目就新鲜上线了但是在上线之前必须要跟大家来发出一个技术大会的邀请 10 月份 10 月 25 号到 10 月 26 号 RTE 开发者社区和声网共同举办的 RTE 2024 大会将在北京举行其中有很多的技术论坛还有一系列的技术的周边活动都是由我们 RTE 社区一起来策划的

今年的技术论坛还是覆盖了音视频技术 AI 生成视频 OS AI 多模态大模型空间计算和新硬件云边端架构和 AI 等多个热门的技术话题这个话题还挺多的然后而且我们还做了一个市集的活动这个在后面的节目里面我们陆续的也给大家放出一些细节我们金金乐道科技论顿编版人生的主播也会到现场和

10 月 25 号到 10 月

我们北京见那我们回到节目上今天这个节目也是蛮有趣的因为大家都知道在假期之前 OpenAI 发布了它的 RealTime API 终于千呼万唤使出来之前我们看了它

搜的多摩泰的形式的发布会但是我们一直在期待这个东西我们什么时候能调用什么时候能用其实大家也等了很久这次它终于发出来了给了大家一个 real time 的 API 然后我们最近这几天也有很多的朋友包括我们自己也去做了一些试用

但是呢还是想跟大家去聊一聊这个 real time API 以及背后的一些故事吧所以今天我们请到了两位在这个领域沉浸很久的嘉宾甚至说是这样一个跟 OpenAI 对接的这些开发者甚至在

比我们更早的时间就已经开始跟 OpenAI 那边去对接的这些朋友跟我们来分享一下关于 OpenAI 新发布的这个 Real-Time API 背后的故事那详情两位的嘉宾呢先介绍一下自己好吗从普雷斯开始吧

大家好我是普列斯然后我是开源实时多模态 AI 框架的一个联合发起人然后其实我们这个项目的话基本上在半年前当时 4 欧发布会上发布他们第一个视频的时候我们就已经开始筹备何在做了当时的愿景就是说哪一天 4 欧的语音接口出来了我们能够让所有开发者快速的接上

最近的话也是 10 月 1 号真正的发出来了确实我们在发布后我们也第一时间提供了基于我们框架做的 OpenAI 语音实时接口的一个 extension 就类似一个积木可以快速放进去帮大家集成的并且提供了可以实时体验的一个 demo 大家有兴趣的话可以多关注一下我们社区的一个项目和我们体验的一个链接我这边主要就这些

那能不能多给大家来介绍一下你的这个 Tenfold Work 到底是做什么让大家有一个更深入的了解呢这样的话大家后面来听你的分享也更容易知道你的背景

Ten 框架的话本质上是我们为了解决在多模态 AI 出现之后我们发现其实针对以前内播做 AI 的同学就可能更多大家接触的是纯文本相关的一个模态但是在 4 月发布之后我们发现 AI 的交互模态它大幅增加了它增加了至少音频和视频的模态

但是增加了这块模态之后其实会对我们的集成工作包括我们需要处理的问题的话复杂度会增加很多比如说音视频传输的话你就有非常可能需要用到实时音视频传输的技术包括 RTC 的技术和设备采集 3A 处理这些技术的话其实对原来做 AI 的那一拨人其实不太熟的他们就会觉得去接这块东西非常的困难

但是同时对于另一边做音视频人来说其实 AI 这一块就是一个对他们来说不太熟悉的领域所以我们做框架的初衷就是希望能够基于框架能快速的把这些音视频能力和 AI 能力模块化提供出来

让大家可以更快的把自己擅长的部分形成可复用的积木让相关的成立者开发者可以把这些积木快速的拼装起来去形成一个和谐语音语音语音语音或者说视频图视频这样的一个多模态实时交互的一个场景能快速的打出来这也是我们框架最初成立的愿景和一个想要实现的目标

那我能不能理解成你们做的其实是一个实时视频或者叫实时 AI 领域的 DeFi 呢可以这么说但是会有些区别就是我们会认为 DeFi 现在更多是偏向于那种流水线式的 workflow 式的一个编程他们其实更关注整个 workflow 最终的一个结果的准确性但是我们这个框架的话他从 Day1 考虑的就是最关注的就是实时

所以中间你可以去编排这些流程但是 AI 它在任何回答的过程中它的数据都必须是流逝的同时 AI 需要能够实时的响应一些状态比如说你需要能够实时的打断 AI 因为你不希望 AI 把所有的话全部说完这些能力的话我认为是 DeFi 没有的对

OK 那好吧那一会儿让你去展开聊聊这个合作啊因为你可能跟他们的接触的会比较深那有请我们下一位嘉宾来介绍一下自己吧

Hello,我是 Kage,我是石像的 AI Research Lead 然后主要做的事情就是在研究并且投资这种这样 AI 的最头部的独角兽然后我们主要有一个比较优秀的内容平台叫做海外独角兽当中发布的内容就是海外各类 AI 技术和公司的最前沿进展并且把这当中相关投资内容的研究开源发布在我们的平台上

在海外独角兽上我们主要发布的是软鱼海外头部 AI 独角兽的最前沿的研究比如说在两个月前我发布了软鱼 4 欧

最比较前沿的研究叫做 voice agent 研究正当刚提到了到底哪一些有声音有关的独角兽会受到影响到底 4O 这种模型尤其包括我们今天聊的 real time API 会在哪些领域真正落地然后也包括在大概半个月之前在欧文发布之前写了一篇叫做 LVM 的方式转移 Io 带来新 stating law 对强化学习技术路线做了分析和预测

然后所以我们就会做这些最前沿的研究并且做相关的专题和讨论然后在加入石像之前我在字节做过 data scientist 在 CMU 做过 NLP research 对这差不多是我的对我的介绍

那你应该是一个市场的观察者和一个研究者了是所以今天我们是这个搭配跟大家聊聊今天我们 OpenAI 推出的 RealTime 的 API 那普雷斯能不能跟大家介绍一下因为肯定还有很多的朋友是刚刚打开电梯的对这个 RealTime API 还不是特别特别了解尤其他是在假期之前发布的大家有很多人也没有来得及试用那是不是先跟大家

去聊一聊这个产品的盖茂它到底发布出来之后解决了什么问题提供了什么样的能力甚至说你可以聊一聊怎么跟他们去合作的是不是可以跟大家介绍一下这个背景信息呢

其实说它是一个怎么样的一个东西的话有关这个具体的效果我认为从半年前 4 欧发布之后很多开发者已经在尝试了比如说大家会通过语音转文字然后把文本给到大模型在文本给出来之后转成语音再送回来所以这样的语音对话场景是大家在这半年来已经有很多的探索了

但是 OpenAI real-time API 它出来的更多的一个东西就是说它以一个排除了这些 STT 和 TTS 的影响的一个它直接提供一个模型来提供语音进语音出的这样一个集成方式来给到卡者

其实以前我们做还是一个异步的过程比如说我首先说一句话他给我转成文本然后扔给 API 然后 API 返回文本之后呢我再 TTS 出来这中间其实是有一个比较大的一个延迟的我是不是可以这么理解

首先这两种它都是异步的就它本质上都是说我有一个输入出去语音的输入出去然后经过一个异步的流程然后语音输入语音输出再回来但区别是就是以前要过三道现在只要过一道对那么这里面一个很明确的一个改进就是它的延时会大幅降低

其实我们能看到这一次如果有接入 OpenAI real-time API 的同学能感知到它的延时体验因为我们说一般来说之前我们做实时音视频交互的话我们认为说人与人比如说我们在两个地方我们希望能感觉它就在我身边一样交互的一个前提是整体的延时差不多在 800 毫秒左右

以前通过 STT 大模型 TTS 这三道转的话基本上非常难达到这样一个延时的标准但是 OpenAI 这一次就做到了

所以的话包括说其实我在早期接入之后玩了一些之前大家玩的很多的比如说让他唱歌或者说让他数数包括数数数的快一点数的慢一点当然唱歌其实他最终没有试出来了因为他可能会有版权问题我猜但是他像数数那种数的快数的慢这些他都是能做到的所以我第一天拿到接入 OBIReal-Time API 的感觉就是我靠这个

简直就是对 STT LM TTS 的较为打击和秒杀就有这个东西我要 STT 干嘛对所以对所以整体的话就我觉得当时第一手拿到的他给大家给我带来的体验是这样的但是紧接着就是他的 API 的问题就我们也都看到了就在 launch 的时候

它是有一些第三方的 RTC 合作伙伴来帮助他提供前置的一些东西的其实包含说音视频媒体设备的一个数据采集然后音视频数据的传输包括前面的一些 3A 处理这些东西的话其实大家看的话 OpenAI 是它只提供了一个传输通道它其他任何东西都没有提供

这里面其实很大的一个问题是在于 RTC 这个领域它所包含的技术的东西实在是太多了相比以前大家一个普通的 RESTful API 什么都有了现在你看到的就是一个

包含了完全不一样的东西而且这些东西的话其实是没有办法至少 OpenAI 没有办法在短期内快速的去解决所以他只能选择说去选择一个第三方合作伙伴再去选择这块领域的专家来真正的帮他能够解决这里面的一个问题所以这里面其实

很多东西它不是一个靠投钱就能解决问题它很多需要时间的积累比如说设备的兼容性我们有这么多安卓设备我们有这么多 iPhone 设备所有设备上的一个兼容性怎么去处理然后网络的延时问题传输优化对传输优化包括全球的一个实时音视频接入 last mile 大家很多人会用手机手机的网络不稳定

如果说我们还用以前 respo 或者长链接它这是提供的 websocket 如果我们只用那个

那么对于一些弱网情况下你这个东西是没法用的所以针对这些问题他没有办法处理的情况下他唯一的选择就是去选择在这块领域比较深耕的一些 RTC 厂商作为他的合作伙伴来提供这也是他的文档上其实明确说了就是他的 websocket API 他推荐你从服务端接入你不要从端上直接接他 websocket API

不然这个 last mile 没法处理因为我也看他那 FiveSocket 的 API 也确实是对于普通的开发者来讲太难了

对就甚至其实我们都不聊前面的 RTC 那一块我们只聊 WebSocket 因为它本质上是有一个从无状态到有状态的变化我们说什么是无状态以前就是一个 RESTful API 你把所有的 context 全部塞到一个 API request 请求里面的 body 里就结束了但现在你会有个状态你会发现它有一个 conversation 的概念每个 conversation 是动态在你说话的时候实时生成的

他们也说了对我感觉是有点自豪的说我们提供了 6 种 client request24 种 server response

我觉得那都是开发者看到这个数字我不觉得会对我不觉得是对他们是一种褒奖觉得太复杂了这个集成就跟以前一个 Restful API 直接可以玩就完全不一样所以这个确实区别跟以前相比是比较大的而且即便开发者接了这些 API 他也解决不了这个网络传输啊等等这一层面的问题啊

所以你们会发现其实 Oberon 这一次在发布的时候它的发布的那个 blog 里面它是有合作伙伴的 sample code 的就是它的 sample code 不仅是它自己它自己提供的是一个非常基础的基于浏览器的一个 webRTC 的接口然后结合它 websocket 做的一个方案但是它同时提供了合作伙伴的全套 sample code 就那些 sample code 是直接把他们的 RTC 和 Oberon 的 Real-time API 是集成好的

就是放在你面前就是放到碗里就让你去可以直接吃对对对这个时候我其实想问问 Kage 因为你跟开发者和前沿的这些 AI 的从业者接触的会比较多那在这个过程当中这次发布的这个 Real-Time API 对于他们来讲有什么样的第一反应呢

我觉得第一反应从正面的角度来说我感知到的就是他的体验真的和之前 4 欧 promised 比较接近比较接近的就是普列斯前面提到的几点第一点他确实延迟降低了很多

第二点它确实在 alignment 层面做得特别好所谓 alignment 就前面比如说唱一首歌调低一点声音调高一些声音这些其实是文本当中完全体现不出来的信息但在声音上它的回复能做得很好我觉得这些开发者的反馈都是非常正面非常积极的让他们看到了更多的想象空间然后但同时也会看到很多开发者的反应就是非常的贵就是目前 API 的定价它大概是

大概我看很多人试用下来是可能一分钟在将近一美元左右那这个其实特别这是大家普遍的反应太贵了用不起呀是的是的这就让很多场景目前的实际试用来的比较的困难我觉得这是一个比较明确的呃

大家共同的重视的点还有一些就是实际使用当中会有一些瑕疵它往往来自于我们会聊到就是四欧这种模型它为了做端到端的声音它其实端到端这件事情有很多好处它增强了智能增低了延迟但是它做成整一个因为它是一个更大的黑盒所以不可重新增强它当中会出现一些 hallucination 或者是一些突然之间出错误的问题

可能接下来会需要很多的开发者的 workflow 或者包括前面普雷斯提到那样的很好的 framework 来解决这样的问题对我觉得这都是我听到开发者从正面和负面的反馈提到贵的这个问题还得问普雷斯为什么会这么贵这是我去刷推也好去看一些开发者社区的讨论也好大家反馈的最普遍的问题说要是这么贵的话

我怎么用呢对吧我开发一个什么样的应用才能回本啊这个可能是现在大家最头疼的问题当然了我们也知道 AI 的价格肯定会随着时间的推移慢慢的下降嘛比如现在文本模型其实从以前的高价到现在基本上就四十五十五块钱的这个状态它是有一个过程的但是

现在看起来这个 real time API 用起来确实比当年文本 API 出来还要贵而且贵很多这个是怎么样一个原因造成的这样的一个定价机制呢对我简单说一下首先我观察了一下我用 OBI real time 的 playground 大概玩了一下然后观察一下它 token 计算的一个逻辑

整体的话发现它有一个比较好钱的地方就是它会把你前面输出的 audio output 的 token 然后作为下一次输入的 audio input 的 token 放进来

其实像大多数我们跟 AI 说话场景我们说话不会说很久我们其实说的话不多但 AI 回复你的会比较多然后你会发现其实单轮对话不是很好钱但是当他把这些 Audio 的数据积累起来之后

他就很夸张了基本上我的感受是如果我从 0 到 1 就建立连接然后看跟他说一分钟他的钱号 token 耗费大概在 2000~3000 的 audio token 其实是贴合他们大概 0.3 美分的一个一分钟的定价的但是当你的对话再继续增长的时候你的 audio context 会不断变长这时候你每说一句话

就都是在烧钱所以这时候我觉得这是大家觉得整体用下来比较贵的一个原因至于为什么这么贵如果大家集成过的话会发现你的音频数据是在不断的通过 websocket 高频的发给 OpenAI 的基本上我们说音频它的音频采用率是 24K 所以基本上你可能 10 毫秒这一个音频不断的塞给它

基本上流量用的人多的话对它的服务器资源消耗其实是一个比较大的负担包括说它后面其实会涉及到我目前看到它应该会是音频的编码解码这些的一些事情

这些的话对于他来说他本身也会消耗算力对它的成本其实相对来说会比以前高很多所以 token 其实本身大家会觉得可能也有人会说我以前 Tax token 也是把它 response 直接扔在我的 context 里一起送出去为什么音频就这么贵因为音频它的单价就是因为这些成本的关系目前拉的比较高所以大家会觉得贵这是我整体用下一个感觉

而且我觉得人类说话的时候其实你感受不到自己说了这么多字但是给你算 token 的时候可能就算进来了比如说我不知道我们的听友知不知道我们通常一个人一分钟说话的速率的中位数是多少中文的话大概一分钟是在 120 字左右一分钟那如果我们再反过来算 token 再包括刚才像普雷斯说的如果我们再把多轮对话内容都塞回去的话那

光是 token 可能就不少他现在其实已经做了一些事情比如说你在连上连接后不说话其实他是不会算你 token 的他会有一个 VAD 去检测你说话开始的时候到说话结束的时候他只取这一段去做 audio token 的输入输出但仅仅是这样就已经很贵了所以对但是其实你不说话他这个流也是在传输的其实本身

按合理来讲的话你这个流只要发生传输它应该按分钟就要计费

所以我认为他已经通过已经想办法很便宜了对吧或者说他已经通过某种定价单价的定价方式已经把这块的费用给涵盖掉了对如果把按分钟的这个传输费用算进去的话有可能会更贵包括你不说话的时候可能都要给你积费的前提是他会不会去处理前面没有说话的那段音频如果他不需要处理那么对于他来说就是一个纯传输的费用其实如果是这样的话相对还好

对但是假如说以后我们有个场景我们是需要 AI 根据环境的声音去做出一些判断比如先让他听一段环境的声音再问他这是什么这时候

我觉得费用就会更高对包括有的时候我们录播客的时候我们经常会说有的时候必要的停顿也是内容的一部分那这个必要的停顿它要不要算进去也是一个问题但是这个问题就来了现在既然这么贵但是产品有了对吧 API 有了作为开发者来讲我们现在应该

如何应对这么贵的 API 或者我换一个说法我开发一个什么样的 APP 才值得这么贵的 API 呢这种问题非常的有意思我觉得首先是我对成本的降低还是非常的乐观的尤其是这次 OpenAI 的 DevDay 它也发布了 Prompt Caching 就是在大概半年之前海外的 MSwapit 和国内的 DeepSeed 都在发布这样的功能就是把

那个 fliss 前面提到的问题之前聊的所有的内容给 kvcache 得存下来用这种方式来降低成本不会每一次再把它放进 input context 所以从这个角度可以做的工程优化在模型测还很多

然后第二个就是聊到到底什么样的场景目前是值得用这样的 API 的然后我觉得欧布兰现在的一个专方的 demo 就给了一些答案比如说他们给出的例子是像健身教练语言学习等等然后与此同时还有像销售客服等等这样的场景他们都是认为是比较高价值的场景要是客服的话我是不是搞个呼叫中心更便宜啊

但是销售可能不一样它有可能会带来高价值的回应是这个问题很有意思其实首先在整个工作联想当中售前的销售确实是占价值最大的但是我觉得还是从动态的角度来看未来长期在一年后两年后这个 API 的价值一定会以两个数量级左右的

速度去下降那么到那时候每年一个数量级下降的话那么在之后一定是肉眼可见的会比现在的呼叫中心来的便宜的

然后我觉得更重要的问题就是他怎么做到这个场景价值的打针以及目前他真正可用的场景是什么这个我觉得我们还值得再深入探讨一下之前那个在 voice agent 那篇文章我们分析当中提到过一个框架建了一个坐标轴我看到这张图了你其实做了一个象限图是的我回头把这个象限图会放在节目的声道里面大家可以在声道里看到啊

好啊然后这个象限图的横轴是左侧是偏准确度要求比较高的场景右侧是偏创造力要求比较高的场景然后它的 Y 轴也就是它的上面这一部分比较在乎的是它的实时性而下面的对实时的要求不高它甚至可以是一步的然后在这样的一个象限图当中我们就可以看到

我们张张说的招架式场景其实基本上在左上部分也就是对准确度要求很高的同时还要实施的这一部分的问题价值是最高的同时难度也是最高的比如说在客服场景销售场景他需要做很多的 reg 来调取很多的实际内则呃

实际生产场景当中的 domain knowledge 那这个 domain knowledge 到底怎么调到底能不能用工具调用的方式把它很好的接进来我觉得这种的话我们也可以仔细的再讨论一下然后所以对这右左上角这一块我觉得是现在价值比较明确但与此同时呢它可用性到底是不是好用不是那么确定的毕竟我们前面聊反馈的时候有提到它现在准确度还不是那么的高

可能在一分钟的使用过程当中会给你偶尔崩一次那么这个问题本身就比较的严重一些比如说 11 Labs 这样的海外的 TTS 公司它收入涨得很快看起来技术本身没有很多的壁垒但很重要的原因就是因为它本身的服务足够的稳定非常的可靠所以客户就始终愿意去使用它

然后回到我们这张相间图右上角这个是我目前觉得被那个 real time API 解锁的更多的但是它目前的价值可能没有完全的被实践或者说它的商业化还不足以 cover 它如此昂贵的成本我觉得这是一个值得去考虑的问题

然后比如说右上角当中提到的是陪伴心理医生然后简单的私人助理等等这种很多时候他只需要一些灵活的给我一些反馈我能展示到他在倾听我的话他在回复我的话那么这时候他的智能对准确度要求没那么高偶尔一些小小的错误其实我是能容忍的下次容错度很高就像自动驾驶器对容错度不高但很多 AI 的场景 AI 的容错度是很高的

那么这一部分我是觉得未来价格打下来之后它是一定能生效的也就是说你觉得价格打下来之后在右上这个象限可能会首先的爆发是的我觉得右上这一则是语音 Teler app 作为一个很重要的人机交互的界面或者说是渠道来说的话

它是最有可能直接爆发的左上这个象限我觉得是现在我们还要对它的可用性接下来做更多的讨论可能才可以验证但它的价值我觉得是毋庸置疑的举一个比较有意思的例子是 Salesforce 这家公司最近也发布了一个声音的 agent 它的 sales agent 的定价也很离谱是一次对话两美金

一次对话两美金这个代表着它本身这一次对话带来的价值是非常高企业才乐意负责那它算长度吗还是就是这一轮对话它目前的定价比较的简单粗暴就是按照一次对话一轮对话的角度来说是多轮组合的一个对话组还是说就是我问一次你答一次就是两美金

目前看好像是我问一次你答一次但这是对话那好贵是的不过他们应该还有企业的这种这样的复杂的一些打折的定价但不管怎么说都可以说这个定价真的是本身的价值是很高的

是啊听上去就比较高但是小 Fors 的用户我们都知道都是一些关注于销售驱动的一些公司他拿来做销售工具的那是不是在这个场景下就像你刚才说的他在这里可能会产生一些高附加值的场景所以即便是两美金可能也会有很多的客户来尝试他

是的我相信是的我觉得这也是 OpenAI 的策略因为以 OpenAI 现在那么大的用户量级它一下子拆放这所有用户它的 serving cost 也很难一下子承受住然后还有各种各样的通信问题那么不如先把它给招价值的用户给拆放开

过程当中一起去打磨到底能不能把左上上线的当中的一些难的问题中克下来同时慢慢的去优化成本再去解锁右上上线的场景我觉得它的整个 road map 应该是像张刚说的那样

现在来讲对于我们的开发者在做一些什么样的事情这个得问普列斯了因为你的 phonework 里面肯定有很多的开发者已经在尝试去做很多事情了那在这个过程当中你发现了什么呢

我们这边目前已经基于我们框架有做的一些场景的话比如说会有 AI gaming 对吧我们之前有同学基于我们做了一个剧本杀的应用就是你 AI 会有一些背景知识你可以跟他玩 roleplay 的 game

然后去找出凶手对然后 AI 可以这对于我们的这种挨人在家玩剧本杀就可以实现了是吧对是的所以这是一种然后后面其他的话还会有类似那种什么 AI Assistant 面试助手还有虚拟软身虚拟 AI 主播包括前面 Kage 提到 Language User Interface 就是人机交互界面语言控制其实现在会有很多穿戴式设备目前对这块有比较明确的要求

所以这些场景的话我能看到的是很多已经在做了甚至有关左上角那块其实会涉及到 RAG 这些的话已经有一些更加深入的工程方向的工作在做了但目前确实在整体的商业化落地上目前左上角还是有不少的一些事情需要去做的但右上角有一些小的面向 2C 终端用户的一些 APP

其实我能看到的是已经有一些那个趋势说可以先让个人玩起来就因为他们对那个 accuracy 的一个要求没有那么高对这是目前我能看到的 Ten 这边的一些开发者已经应用在一些应用场景上的一些情况

其实我特别关心一个问题刚才开始其实也提到了就是跟 RAG 的交互的问题因为我们解决了实时沟通的问题但是有的时候我们还要回到原本的我们的知识库我们原本的一些东西里来那 RAG 的接入其实在实时音视频上在实时的这个接口上其实它好像成为了一个卡点

这一上大家有什么最佳时间吗我觉得这里的复杂点在于你对 RAG 的 query 也会有一个实时性的要求对这个怎么来解决呢现在好像这个实时性解决的还不是特别好

我们目前试下来这个问题还是可以解决的你需要提前对消息对内容做一些 tracking 以及 embedding 然后你在 curate 的时候你可以用多线程的方式去

同时处理这些事情能够让他包括说你对纯属的数据内容做通过大模型做一些 summary 来减少整体的信息量级我前面提到剧本杀情况我们其实后面就有用一个 rag 因为我们会把剧本杀里面每个人的背景知识全部输入到角色里面这样的话你在跟角色对话的时候它是基于他后面的一套 rag 体系的知识再跟你玩这个游戏

我们目前玩下来的话整体的实时体验还是很不错的当然这会相对于你以前用 DeFi 放一个 reg 在那边然后让他在那边缓慢的 curate 得到一个结果再用这个结果交给大模型

一定不是这样的流程对你需要关注这个 RAG 在整个体验里面它带来的一个延迟的一个效果和到底怎么样尽可能去做这方面的优化这里面会有很多技术相关的一些事情也就是我可以把 RAG 查的结果直接给到这个实时的接口然后让它再输出相关的内容这样就避免了说我签中大模型给它去顺一遍做一遍总结然后这样产生的延迟

因为这个总结大概率是在前期准备好的你实际在用的时候你的 file trunking 你的 embedding 这些东西都已经做好落在你的数据库里了 summary 所以你最终在做的就是当你问到问题的时候你可能会结合大模型的 function calling 来决定要不要调用这个 reg

因为掉落 reg 确实还是会有耗时你不希望说我再跟他聊一个无关的话题他也给我去掉一下 reg 然后查出一个无关的东西所以在这个情况下只是 curate 的话其实是有办法去优化这个东西的一个演示的好像这个跟 Kat 刚才说的左右向线也有关系如果我们去看右上的话其实更适合刚才你说的这个场景如果我们去看左上的话

但其实它有一些延迟好像我们也能接受它可能更要求准确度对我觉得这边也是一个很有趣的 tradeoff 就是如果它能够为了准确度牺牲一点延迟的话我觉得也是 OK 的

比如我平时打客服电话客服也会跟我说您等会我帮您查一查没错其实这也很自然是我觉得这里就是有一些工程上和产品设计上的点就是很可能它就是多线程的先说一句张张那样的比较简单的片桃话它可能没有什么实际的意义但同时在跟我说了让我的体验很好同时它在一边在翻东西或者在查文档其实 RAD 就是和这个过程是一模一样的

那么他可以先生成一段声音与此同时他自己去做那个 reg 做那个从 chanting 和 embedding 当中找信息的过程再把这一段声音再拼进来我觉得这里一定是未来会出现的一些趋势我

我也同意好像是要有一些工程上的技巧来覆盖这样的一个有可能在某个点上会有一个异步的卡点的这个问题所以刚才提到这个大模型其实也是这样我们今年一直在提这个

大模型支持多模态刚才其实也提到一些场景比如健身教练其实他也不仅仅是一个音频的一个互动了可能更涉及到对于视频的一些分析啊解读啊其实这是一个典型的多模态的一个场景所以说现在也会有人说比如我们在推特上有个博主叫汤姆黄也提到了感觉就是说第二代大圆模型的开发框架

呼之欲出了说之前我们用 REST API 去做的这些东西可能我们会把它归结为第一代第二代可能会有更多的这种多模态上的支持这个时候我就想问普列斯了这个时候我如果说提到多模态第二代等等这些关键词的时候你觉得从碳矿架的角度来看

你觉得什么是真正的事实多么太其实这里大家会有很多很多的这个讨论和争论了比如说我用异步的 TTS 加语音识别去做出来的东西到底算不算多么太这里其实在开发者领域我知道有很多很多争论从你的理解来看嗯

什么才是真正的时时多么太呢我觉得真正的时时多么太首先是时时然后是多么太时时的角度就是你觉得时时应该放在最前面呃这个我觉得是两个相辅相成的事情啊

首先实时的话我觉得是我们前面讲的怎么样能够让跟 AI 交互的过程尽可能的有一种沉浸感就这个沉浸感的方面来自于实时和多模态大模型这两块实时的话我们更多

在面向用户角度说的时候就是它的延时不能过于高然后你希望它就真的像在你身边一样不管它是在云端在哪里这就要求我们开发者在做工程设计和技术设计的时候在 Day1 就去考虑我们的一切数据流入它都应该是流逝的而不是说我今天有一个完整的问题这个文本我交给你你给我答案就行而是说我这个文本可能都是一个字一个字给你的

这跟我准备好一起给你完全不一样然后同时的话多模态的数据它大概率在包含了音视频之后它是需要有一个高性能低延迟的一个传输通道的那这个通道的话如果对这块不是很有专业的人其实它非常容易搞出问题包括性能包括那个网络

这块的话最好能够天生给他们提供好同时的话所谓的实时它的状态在每一刻都是可以变化的它是有状态管理的比如说 AI 是可以被打断的就是说 OK 我现在你说不对我要把你停掉那么这时候 AI 就应该马上停下来而不是继续说完

这些的话是我能看到的所谓真正的实时多模态的实时部分那么多模态的部分真正的多模态其实我目前体验下来我感觉 Obi-Wan 还不是真正的多模态

它只是一个 v2v 就就是 voice in voice out 的一个端到端的一个框架但是其实我有尝试说比如问他一些问题说你能不能 analyze 我的声音来告诉我我现在情绪是开心的还是难过的

他会告诉我我只能 analyze 你的 text 所以我认为他在里面依然不是一个我们真正理解上他的训练他的 curate 完全是通过原声音频去做的一个多模态的这么一个大模型所以

我觉得真正要实现真正的实时多模态就需要做到这两点那么 TAN 这个框架的话它更多解决的是有关前面实时这一块的问题我们希望我们提到的这些天生异步流逝还有高性能传输通道状态管理这些东西在 Day1 就可以原生的提供给开发者让开发者可以不用去花太多的心力去处理这方面的东西

进而去提升他们的生产效率能够快速的去做更多的创新和迭代这是我们这边的一个整体对于

实施多模态的框架的想法是不是也跟现在他们能够拿到的音视频的训练素材要远远的少于文字素材有关系所以我觉得 OBI 那边它的模型首先至少应该有好几套就像我们前面我们也有聊到 KJ 聊到只是它现在 Advanced Audio Mode 在它的 GPT App 里面和 OpenAI 提供的能力

其实是还是有一定差距的再回到他 6 月份提供的能力虽然说他做到了可能 60%70%的一个能力但是有一些事我们认为他现在也是没有做到的所以

我认为现在这个模型可能也有可能是他们的一个中间的一个过渡的一个节点的一个东西那最后好像跟那次发布会发的也还是有点区别的是有一些差别的对我试下来我认为有一些点是满足的但是大概的层级就是发布会大于

现在的 GPT-4.0 的 Advanced Audio Mode 大于 Open API, Real-time API 大概是这么一个层次对对对我也同意是但这是从看法者角度的理解那从行业观察者的角度你是怎么看 Kate 你是怎么看现在我们在争论的这些关键词呢

我觉得首先 OK 还是按照前面弗雷斯的框架好了先聊实时再聊多么态我觉得实时未来是一个很重要的事情人类的思考有快思考和慢思考系统一和系统二那么我觉得未来人和 AI 的交互也会出现系统一和系统二

那个系统一就是实时的它不断的用语音或者是文字结合甚至是图片结合的方式和我在做交互那么它可能大模型做的事情比较像肌肉记忆就是它知道什么一下子给我回复了我要求它快能给我很有帮助的回答

那么系统二做的事情就是之前发布的欧万模型我可以给他想一天想一周想一个月只要他给我交付出来的结果足够招价值能把这个事儿给完成了呃我不在乎他是同步还是一步的未来这两套系统随着模型能力的提升一边是实质性很强一边是呃长距离推力能力很强他们会慢慢的分叉

所以从这个角度来说的话我觉得实质性就是一个在第一个系统当中最重要的一个标准然后聊多么太聊多么太这个事我觉得我同意现在和多么太还有很明显的距离最典型的距离体现在视觉的理解上而且我倾向于就不是一个短期之内能解决的问题我说短期它主要的卡点会在哪在视频理解

就是视频理解这件事情它比图片理解音频理解来的复杂的很多首先第一个问题就是世界上没有很多适合 AI 从头学习的视频视频都是为人类的娱乐生活进行剪辑的

与此同时视频本身的性造比又很低就是相比我们说的话书上记录下的文字视频当中比如说咱们今天在聊天只有嘴唇在微微的动之后的背景其实没有太多的重要的东西但我要捕捉到他的微表情那么这对 AI 很难当一个大模型端到端大模型把它和文字放到一起的时候它可能看起来就跟白噪音差不多就是它很难去理解当中那些微妙的变化

我觉得这两个问题都会在现有的架构上带来比较大的困难同时它还有时序上的理解视频可能前面和后面一分钟发生的事情有很强的一路关系但当中没有完全的串联起来我觉得这些问题都会比前面说的图片音频来的难很多所以我觉得这个可能是一年之内很难完全解决的问题

就是视频或者是视觉信号的输入其实是有很多人类原生就能理解但是并不能被 AI 所理解也没有人能够有很多的数据来跟 AI 去解释这件事情的这些素材

是的因为我们人看的时候并不是看到比如说我们看到视频之后脑子里蹦出一个词再去理解它它其实有一个原生的 visual visual encoder 我好像就理解我的电脑离我多远我桌上杯子离我多远这些事所以这个东西可能还有另外一个类似于像世界模型那样的东西能够慢慢的建筑出来

这个好像也解释了一个问题最近我们也看到很多的厂商在发布生成视频的模型那我们也会发现在这些模型的应用里面我会发现它生成的基本都是一些大的场景它会比较擅长然后小的一些场景或者说你刚才说的是不是能够利用微表情或者说是用一些隐喻的方式来把这个视频表达出来好像它就不行了

没错是不是也是这个原因反过来比较容易理解是的我觉得首先数据很缺乏

然后在这里大家的审美可能又不一样所以大家可能先解决的是一些现在成本很高能有高价值取代的问题就像我们前面说左上角像现在客服那么在士兵生成这个领域可能是毛发生成布料生成这些生成起来比较贵的东西那么如果这些细节能做好的话那是最好了如果做不好的话我们就先做一些宏大场景这是他们现在在想的事

OK 而且呢这个问题其实蛮有意思刚才我们提到了多么太爱我们提到了实时我们之前还会提到一个东西我们总在说互联网的未来我们提到回到互联网我们互联网的未来呢以前我们说是一个一步的互联网对吧你敲入一个网址然后它给你显示一个东西那我们以前总是在提我们下一代的互联网会不会变成一个实时的互联网

我别管人与人之间的互动现在甚至说有了人与 AI 之间的互动它其实本来我们这种交流也是一个实时的交流那互联网下一步会不会变成一个实时的其实这是我们甚至说

甚至在疫情之前在 18 年 19 年的时候我们就在讨论的一些话题当然那个时候我们的这个大元模型啊等等还没有出来的这么多对吧我们也没有讨论这么多甚至当时更加没有多摩台这些东西但是到了今天特别是这个 real time API 发布之后

我好像突然意识到一个问题,那是不是我们之前提了这么多年的实时互联网或者叫这个 RTE 技术,会不会就真的在这些东西的推动下,真的变成了一个互联网的基础设施了?

首先我感觉我们已经是时时无聊了其实我们可以看到现在人与人之间大家沟通看直播也好直播包括日常开会像我们现在这样用远程会议其实已经是一个非常常见的一个现状了大家想就可能在 2000 年的时候大家沟通主要还是通过聊天室然后通过 tiktok

然后文本的聊天但是现在我跟你聊天有时候我就直接微信呼起来然后就直接说话或者甚至直接音视频就来了其实大家可以把去年我们跟 OVI 沟通的时候用 text 那种输入的方式类比到 2000 年我们跟其他人类之间沟通肉聊天室对文本聊天室但是我们现在能看到的就是在

接近一年左右的时间里面 AI 从快速的从文本加货的方式向实时互动的方式有了一个比较大的跃升那么我觉得很快我感觉可能再接下去一到两年里内首先我认为现在已经是实时互联网那么 AI 会在接下去成为实时互联网的一部分

那我们会在每天的日常会议中不仅仅变成说人与人的互动那甚至会有人与 AI 甚至 AI 与 AI 的一个实时动漏态的互动那这是接下去目前能看起来大概率会发生的一件事情如果你说现在是实时互联网我也承认对吧我们现在可以马上的发起一个视频的呼叫但是它仍然是一个基于链接的就是我必须要脸上你将来

互联网尤其是在 AI 大量的应用之下我们的这个实时这件事情是不是会变得更加的可获得比如说我就用健身教练的这个例子那我可能在家里的那个镜子本身它就制有一个 AI 的功能它就是实时的连到我的一个 AI 的健身教练那边他只要看到镜子里的我他马上就归我

回应一个消息你们记得吗现在很多人去用微信还会有一个习惯问在吗将来是不是我们在使用 AI 的时候就不存在这个在吗这件事情它永远就是一个事实的但当这个能力去下移的时候那是不是会反过来去促进我们这个实时互联网的发展

这个很有意思啊就是刚刚提到那个实时的概念我觉得背后的约束是人的精力就是我在交互和或者给我提供服务的人那个精力是有限的如果我每天都用 AI 呼你的话用微信呼你的话那你就疯了那你可能就把我拉黑了对对对尤其现在信息那么多但 AI 可以处理我的所有信息

是的对这时候整个交互就会变得不一样可能未来所有的信息过来就会先由我的 AI agent 给我做一道就从某个角度来说它是实施的因为我有需求的时候它就在那对它就在那但从某个角度来说它的异步也变强了因为它在实时的帮我去处理很多不应该处理的事情甚至有可能未来广告是 Agent 推的

那么到时候他大概知道我的需求除了可能每个月固定要买的东西他全帮我买了我只负责一些比较个性化的娱乐消费对吧然后只有这些内容会存在所以从这个角度来说我觉得未来就像普雷斯说的就是人和 AI 的交互甚至 AI 之间的交互协议我觉得都是一个很有很有意思的话题然后我也非常同意就是从 AI 本身的最强能力就是

无限带宽无限精力只要给他算了一条数据之后那么我相信肯定事实会更容易更容易企及对我也是觉得慢慢的会不会在

实时互联网的应用上因为 AI 它的永远在那的特性会导致这种实时互联网会更广泛的被使用而不是今天我们只是定一个时间我们来开个会将来可能就是一个 AI 在那别管它是以音箱的形式还是以摄像头的形式它就是在那我可以随时的去问它

没错我觉得可能我可以举两个例子我觉得比较看好的方向现在比较复杂的两个忠诚一就是软件忠诚一就是电影视觉忠诚这两个东西我觉得未来都会被实时个性化掉就是比如说我现在有一个小小的需求我不可能找一个 IT 外包团队来帮我试错来帮我执行我的需求同样我想看一个比如说综艺里面或者剧里面的我喜欢的男主角不要死掉的结局

那么这种东西现在都做不到但未来有 AI 它可以在那边实施根据我的需求来做一定的调整这个调整可能是我真正想消费的内容我真正想使用的软件那么这就是那个时代形态的事实这个其实我们在那个还是我前面提到那个社区项目就那个剧本上那个游戏其实他们有设想过这个是叫

多重宇宙和 what if 当你这个游戏你首先你有一个编排好的剧本它们有固定的比如说什么谋杀案第一天发生什么第二天发生什么但是现在你有 AI 之后你可以积极这些背景然后你去决定当天发生了什么事情然后后面 AI 会帮你去自动生成

在你做出这个决定之后会有一定的蝴蝶效应对所以这个其实也跟刚才那个 KG 提到那个有关电视剧我想去改变这个结局就这里面会有很多的娱乐性和可玩性可以让大家给大家去提供对是而且我是觉得在这个过程当中还有一个点我们没有聊到刚才我们聊的包括这次 Rotime API 实现的其实都是一对一的我跟 AI 聊

有没有一种可能将来我的对面是三个人加一个也或者是两个人加两个也

这样的一个组合比如说像你剧本杀这个场景为什么想到这个问题就是剧本杀场景我凑人其实是一个挺难的事情那将来有没有可能 AI 能够去实现这种多对多的场景那在这里面的挑战又是什么因为我们看到这次的 API 并没有开放出来这样的能力是吧目前的话大多数 AI 的使用场景依然是一对一的但是我们其实有考虑过多对多

其实我觉得更多是多对一了可能会有多个人然后一个 AI 在那边但是我们深入想去考虑后会觉得虽然说你有多个人比如说在同一个会议里面但是其实在同一时间内真正在沟通的大概率就是两个对象这两个对象可以是两个人也可以是一个人和一个 AI 其他人可能就是在听对所以这里的核心点在于

AI 如何识别到当前的对话焦点是他其实我们有做一些尝试当然后续可能在社区这边也会发出来本质是说 AI 需要在听的过程中他需要意识到大家说的话哪句话是他需要响应的哪些话是他忽略就好他听了记住就好其实只要他能实现这个事情之后

那么理论上我们刚说的多人场景应该就可以实现它只需要在适当的时候进来比如说 OK 我们会议开到一半我说 OK 那这个帮我会议总结记要一下那 AI 知道 OK 这是对他说的那么他就回复一下其他时候他静默就可以所以更多是这样的一个场景我们先看一下

也就是说我们往往总是还是用现在的人与人之间的交流和沟通或者是工作的模式来去理解 AI 的行为但是有的时候往往陷入了我们仍然在想办法造一个更快的马车的那种陷阱里面对我非常同意这个造一个更快马车的比喻就是我觉得未来可能更多的多 multi agent 多 AI 的交互多 agent 的交互是来自于 AI 之间的

就是有一个比如说有一个销售 AI 和一个购物 AI

同样包括可能有一群甚至说的极端有一群外交专业就是很多任务都由 AI 之间的通信去实际的完成而不是通过人的直接交互来实现人更多提供的是数据和一些关键决策上的判断这些事情是 AI 系统需要离不开人的但是在很多的事情的执行上

就比如说前面说的每个月买一次东西这些事 AI 绝对比人记得要牢我觉得 AI 有很多地方现在或者说未来一两年内已经会成为 superhuman

然后当然为什么说又在一两年内我觉得就是一个现实的场景现实的问题就是现在好像多 agent 还没有很大的落地就是因为单 agent 的能力和扯上性还有点问题那么如果一下子放很多进来的话他们容易乱套或者容易他们互相之间说话渐渐变得趋同等等这样的问题

我觉得看整一个 AI 尤其是在强化学习在这块之间强化学习做的比较多历史上来说就是先把单 agent 做到比较好之后才引入 multi agent 所以现在 OE 发布之后那个 Norm Brown 他们也在招 multi agent research 的这个方向我觉得这一定是未来非常重要的一个方向不光是多人和一两个 AI 很纯纯的是一个人和一群 AI 这样的情况

所以现在还是有很多要走的过程吧因为确实这次我们测起来发现还是有不少问题对

对但是这个话题我们可以说回来既然我们现在的 AI 进展到了实时音视频的领域那我们如果往回看的话我们也会看到之前我们在语音识别 TTS 上面也做了很多的积累刚才一开始的时候我记得你们也说到那这个东西出来之后会不会对他们造成一些

影响或者是说将来这两个东西之间会不会有一定的分工协作的关系呢

其实我们看一下 Obi realtime 的 API 的话会发现首先它的输出是可以控制 text only 的它有个 modality 的一个选项对它可以把音频输出关掉然后它的 stt 它也是可以开关的它可以指定一个参数说通过 whisper 去把 stt 开开所以

首先我认为他默认提供了可以把这些能力 delegate 给外部的一些厂商的一个选项因为我感觉他我认为他没有办法覆盖所有比如 TTS 我有这么多的音色我甚至有很多需要自己去基于我的音色训练的需求那 Obi

他有没有精力去覆盖这些需求他应不应该投精力去做这些事情我认为他大概率是不会这么去做的所以他一定要有一个办法能够让外部的 TTS 接进来但是同时的话目前他的 STT 大家用过的话会发现它只是一个辅助功能就是我能看到的一些场景比如说 OBI

我跟他说话他是能正确的回答我的但他的 STT 是错的所以我认为这是两套东西对我认为他是这种 vsuper 出现对我认为他是两套东西他不是基于 STT 的输入去做的推理所以 STT 在他这边他其实更多而且 STT 他不是实时的根据你语音输出的他在你说完一句话之后然后帕一次性的输出

对不像最终的 Audio 的输出一样它是跟着语音一起逐字出来的所以这里其实更多证明了 STT 在这里可能更多就是一个辅助功能所以我个人感觉的话至少在短期内他们还是会共存然后但是 STT 的

目前的效果来看它作为大模型的输入的话它会有很多问题比如说我到底什么时候我的语音识别算是个结束然后才应该送给大模型那么它在这块上它相对语音直接输入的到大模型这块它是有天然的劣势的所以我觉得它被替代至少在作为音频输入音频解析输入到大模型的角色上的替代上

我觉得这个还是很有可能的但 STD 还是有用的比如说以后提供字幕对吧我觉得还是有用但 TTS 的话我觉得依然会比较重要因为我觉得 OVI 我个人感觉我本来大概率没有办法覆盖所有的音色你还是会需要类似 11labs 这样的厂商去提供更加合适的一个音色甚至为你的 TTS 提供更多的感情的一个支持所以这是我目前可能看到的一个大概的一个情况

这是怎么看这个问题我首先观点上和普雷斯非常的接近 TTS 会有一个价值叫做它是 interface

就是它是那个最有表现力的然后那每一个界面的东西它有点像 GUI 那么 Language UI 我觉得最好的就是有 TCS 常常来提供尤其是 OpenAI 现在已经有很多事情要做它的精力已经分布出来每一个地方都做到最好的那些细节做到极致了

那么比如说 11labs 它就是一个这里的典型它现在最主要的那个市场比如说我们放到还是回到我们前面那个象限图的话在左下象限叫做 AI dubbing 就是在比如说电影有声书短视频这些当中其实目前的工作流往往是大家写好一个台本

在这根据台本然后 AI 去做相应的直接去配音这里其实它人和 AI 是协作的在刚刚那种象限的上面那一部分是 AI 完全的完成同时输出了想说的内容和输出的是

但 TTS 不是 TTS 是人你帮我把内容写好了之后我帮你最会声会色的讲出来我觉得这个需求和前面咱们说的 real time API 是不完全一样而且在有的时候会有一些互补的对所以我觉得未来这样的分钟还会存在尤其在一些异步的我对精细要求精细度要求很重要的东西上比如说类比人类社会就是配音演员

配音演员这个职业不会因为我们大家都会说话也有很多厉害的人可以实时播音但并不会因为配音演员这个职业就不存在需求了所以我觉得 TGS 也是但是不是市场会缩小尤其是在延迟这个场景之下之前大家没有方案现在有多少多模型方案之后这个市场可能会缩小呢我觉得长期是有可能

但短期有可能是大家互相一起众同的去吃更大的增量市场去把 AI voice 这件事情做大对这是我的猜想反正我们今天看到了 OpenAI 发布的 Rotime API 当前的一个状况大家也在里面去做了很多很多的尝试当然这个只是一个 alpha 版本是吧是一个内测版本不算是一个

我们可以给每个人公开可用吧再加上它确实也是太贵了它的可用性可能也仅限于我们的开发者或者研究者的这个领域去看所以今天是希望通过这个节目给大家一些

预览以及展望那提到展望呢就想用最后的十分钟的时间让二位嘉宾去聊一聊你们怎么看这样一件事情别管是事实还是多么太或者这两者之间结合的这样的一个未来我觉得张璋有几个关键词已经提到了第一个是

真正的事实就是他可以根据每个人的需求去做一定的定制只要他随时在那里给我回应第二个关键词是多 agent 其实未来很有可能是很多的 agent 去做协同的人物来给我一个任务的完成那么第三个其实最终的目标可能就是有一个系统帮我完成所有的简单任务它类似于 HER 当中的 Samantha 它能够

随时随地的给我一些回答然后另外一个系统做的是真正复杂的任务他去帮我完成推理做研究但我觉得这样的需求其实是相对从人数上来说是相对小众的是比较有一部分有知识需求的生产力需求的白领做的需求

而真正的那些实时互动娱乐型的或者是内容消费型的那么这可能是我觉得更大的一个有更大市场潜力如果我们按今天老的互联网思维看 ADAU 还很重要 MAU 还很重要的话那这一部分肯定是体量更大的当然同时我觉得

然后可能另一部分就是高价值任务但是 DA 又比较少的这两部分可能同时成为 AI 未来两者分流的方向那么在这样的基础上我觉得比如说最近一个比较好的例子是 Notebook LM 这款产品就是能够把很多文字剪成多人的播测就这种类型的场景我觉得它产品看起来思路挺简单的但我觉得它打开的一个想象力就是未来下一代的实时媒体是什么

其实很多东西就没有那么多格式上的区分了它是文字也好音乐也好对吧然后音频视频也好它们可能互相之间像一个万能的比如现在我们说 Type-C 接口或者 TCP IP 这种通用的协议那么未来很多内容之间都有这种通用的转化的能力那么我觉得到那个时候就是实时互动 AI 真正到来然后我们可以和它去生成自己真正想要的内容形态的时候

然后人在这当中的位置就是发挥创造力前段时间特德江有一个比较有意思的文章叫做 AI 不能创造艺术他的理论叫做写一篇一万字的文章我至少做了大几千的选择怎么用词怎么措辞但我现在写一个 prompt 我写一句话很短可能只有十到一百个选择

这个选择的量的坍缩让它的艺术价值让它可以差异化的价值就变少了这个我特别同意我也看那篇文章是所以我觉得未来最重要的就是是不是有一个 UI UX 可以让人适当的在关键决策上介入让人可以参与进来在实施互动当中给 AI 最大的帮助一起去创作一个很好的内容

但同时把不摘让人把人摘解放出来那一部分精力都解放出来因为前面我们聊了人类精力很有限所以现在的服务大部分不是实施的那么可能这样的交互形态甚至是一个 AI 和人共同使用的操作系统那么我觉得是下一步未来都会发生的事情

这里我想延展一个问题因为 OpenAI 最近又出了宫斗系你们也知道然后这个宫斗的核心可能就是这个 AI 安全的问题所以有的时候 AI 到了今天有的时候我们就不得不聊这个安全的问题就像你刚才说的如果 AI 把这些选择它决定把选择怎么样交给人的时候是不是它也在一定的程度上影响了

人类进程的发展甚至说对吧因为我觉得这你不需要选我帮你选了这个才是你需要选的那在这个选择之间其实是有很多的操作空间的那一旦我们说 AI 在

在我们的生活当中渗透的越来越多那在这一层安全上的问题我们应该怎么去面对和考量呢当然有的人说现在的 OpenAI 他们这个宫斗是为了安全宫斗有可能是它只是一个由头是吧可能但是也有人说 AI 安全确实很重要你怎么去看这个问题我觉得 AI 安全一定非常重要就是它作为宫斗可能是一个由头

但是它作为整一个未来我们五年之内要考虑的事我觉得一定会发生尤其离 AGI 越来越近的时候这个问题会非常的严重现在比如说我们去跟 CHP 聊美国大选他们一定是支持民主党的这个事情有点类似于两年前 Elon Musk 打算收入推特前后的大家去看推特的安全审查员发现大家往往会审查掉很多和特朗普有关的帖子

但对拜登有关的帖子基本上就都得审查过了这种技术的引导力我觉得一定在人类社会文明的潜移默化当中会给出影响我觉得这当中怎么规范规范非常的重要然后我觉得一个比较有意思的类比就是呃

运动员和教练就是怎么 wit to strong 的做这个对棋因为比如说教练一般来说年纪都比较大经验比较丰富但他没有最强的运动能力

运动员往往经验不够丰富很多时候没有很好的判断那是他的身体状态是最好的那么怎么让教练教好运动员这个事也是我们未来安全要去想的事情我们可能已经未来可能看不懂 AI 的推理过程他甚至不一定是英语他可能有自己的一套符号系统那么我们怎么去

真正的还能不能叫监控吧应该说让他们在我们的控制之下比较好的一起去完成任务正着的提升生产业同时也去做娱乐我觉得这个问题会在未来五年三年之内吧就逐渐的放到台上然后我觉得目前比较有意思的研究可以关注的是 Anthropic 的可解释性团队在做的事

他们就在研究一个巨大的神经网络黑盒内部有一些东西有一些关键字出现的时候哪一些神经元会被点亮这和大脑脑区的研究非常的像

那么如果我们同时能够理解神经网络尤其这大模型的中作原理在一些关键词上的反应之后我们渐渐能从比较底层的角度去思考和一定程度的管理没错 OK 那作为开发者普列斯你怎么去看待这个 AI 的未来以及我们今天一直在聊的这个安全的问题

我首先那个说说开发者视角开发者视角的话呃首先那个前一个是我们前面提的我们整体对于呃实时互动多模态这块领域的一个呃冲击其实我觉得呃有开发者如果对这块感兴趣还是应该呃趁着这一波看能不能抓起来呃我觉得最终的话其实嗯不会说多模态会吞噬掉文本模态的所有就像现在呃

虽然我们经常会用远程的这种视频软件聊天但是我们还是会打字跟其他人聊天所以我们会有一些类似这种直播的应用我们也还是会有类似那种 CIM 那种纯流水线式的一个应用

所以本质上最终两种形态可能是会共存的但是作为一种新的软件液态的话其实我非常推荐说如果对这块感兴趣的同学可以尽快参与到这块实时动模态一个 AI 原生应用的共建的一个过程中来

那么同时的话我觉得开发者对于整体 AI 的一个开发范式的理解要能够意识到可能我们目前在面对的是一个整体软件开发形态的变化

我们以前的话可能是在写一些程序代码然后自己去基于产品的一些需求理解一些抽象并且把代码写出来那么代码写出来它的一些行为范式都是固定的我们也会有一些叫我们叫 design pattern 的一些写软件的一些最佳实践

但现在的话我们可以认为在大模型出来之后我们在做的更多是基于大模型上层的一个编程就我们叫 Prompt Engineering 包括说 OE 其实我们会看到稍微了解一点可能会看到它其实本质上它的模型能力没有太大变化它更多做的是一个基于这个模型上面的一个工程和 Prompt Engineering 的工作来提升它最终答案的一个准确度所以

其实本质上我们在它 Prompt Engineering 跟我们之前写的代码其实是非常像的它是可以类比的只是说你以前是写程序现在你是写 Prompt Engineering 包括 Prompt Engineering 现在也已经有一些 design pattern 了这个其实跟我们以前学习软件编程是非常像的所以类似这样的一些思维方式我们要尽快

尽快转移过来啊包括说其实现在在你写一个原生 AI 用的时候已经非常像去复制一个人类的行为了啊对我们看 AI 其实他有记忆对吧有推理能力有说话能力有听的能力啊最终我们把这些能力拼装在一起那他跟人其实已经非常非常像啊所以你在写代码的时候其实啊

这样的一些意识形态如果能够理解的话对于你将来去做原生 AI 应用的工作其实会有很大的好处还有一方面的话我们目前还能看到的一个趋势是云边端其实我们也看到 Apple Intelligence 对吧 Everything Apple Can Do 对然后边端的 AI 目前看起来还是有一定的一个发展趋势的因为边端的 AI 它不要求网络而且它响应更快

并且它可以解决隐私的问题而且其实一些普通的任务边端的 AI 都已经能解决了所以我觉得虽然说现在我们很多时候在接入的时候像接 OpenAI 什么我们其实用的方案解决方案都是纯云端的但是我觉得接下去一个很大的趋势还是说我们会把一部分的能力

向边端去解决啊就像我 Meta Class 对啊 Meta 2Meta 2 的话其实它在端上它在你在跟大模型对话的时候它会在端上先用端上模型先处理一下如果说它觉得这个问题更复杂那它才会送到云端去处理这其实保证了更好的一个用户体验对所以怎么样去呃构建这样云边端的一个呃

设备协同去完成一个复杂的 AI 场景这我觉得也会是接下去开发者需要去关注甚至是去投精力考虑的一个问题至于有关安全方面

老实说我首先我肯定同意 KG 这个建设是非常重要但是作为开发者的视角我觉得技术的话比如说我们之前其实有人就基于社区有同学的话基于脚底 fake 然后去打出来场景可以去做到换脸然后实施互动

但是最终就这个技术怎么用其实从我的视角还是看就是你把它用在什么场景就是至少从开发者的视角我觉得不应该至少不应该过多的去限制大家去做技术的一些创新

但是限制肯定是会有的就像你现在用我前面提到的版权问题我觉得这些限制包括 moderation 这些事的话其实都会有大模型底层我觉得之前没有跟上但接下去会慢慢跟上

所以从开车视角的话至少我不是这块领域的所以我目前的话更多关注的就是如何能够通过这个技术能够达到更多的创新效果去实现更多场景的一个落地至于技术本身它是中立的所以看还是看你怎么去用这个技术

今天呢跟大家聊一聊吧其实这里还有很多的话题可以展开比如刚才我们聊到的安全的问题端侧模型的问题其实我觉得这些问题都可以单独的去展开一期节目了但是今天毕竟咱们的时间有限而如果大家想要听到二位嘉宾更多的分享的话呢也欢迎大家到月底来

来参加我们的 RTE 大会那也请我们二位嘉宾跟大家发出我们参与这次 RTE 大会的邀请吧 Kid 先来吧介绍介绍你要在这个大会里面参加哪些环节有没有跟大家见面的机会嗯

好的好的如果这期今天这期节目你还没有听够的话欢迎大家可以来参加这个月底也就是 10 月 25 26 号在北京举行的 RTE 实时互联网的大会那时候我会代表海外独角兽参与出品这个音频技术和 voice AI 的专场

在场请到的都是国内最前沿的做语音大模型语音合成 TTS 然后语音识别以及整一个端到端大模型的专家和开发者到时候会一起来探讨实时多模态 AI 的发展很多话题也会和今天我们聊的话题比较的吴和很期待到时候可以在现场见到大家那普雷斯你在负责什么样的环节呢

然后首先就很期待可以去这边的一个就论坛我这边的话也邀请大家这次在 RT 大会上我们的 Ten 项目也会发起一个现实的一个去基于 Ten 开发 workspace 的一个活动我们也再次邀请说大家如果有兴趣可以来现场然后快速组装一个属于你自己的一个端卧台 AI 对是一个 workshop 吗是一个 workshop 对

OK 那大家就可以过来直接参加是吧是的对可以现场体验一下嗯

OK 那大家也可以通过我们节目 Snowdark 里面的链接来报名大会现在报名是可以领到我们编码人生的专属的限免的闷票但是这个票数量有限大家如果听到这个节目就抓紧来领票然后在 25 号 26 号咱们就北京见我们节目刚才也说到了我们节目的主播应该

都会到场都会跟大家有交流而且现场呢我们还有播客录制的活动也欢迎大家来参加好吧那我们就到时候见那我们的这一期编码人生呢就先跟大家聊到这里感谢大家的收听我们下期节目再见拜拜拜拜拜拜

感谢您收听本期节目本期播客节目由金金乐道制作播出您也可以在我们的官网 dao.fm 找到我们的更多内容作品如果您喜欢我们的节目欢迎在微信微博朋友圈等社交媒体转发分享您的分享对我们而言十分重要如果您希望与我们互动可以关注我们的微信公众号金金乐道播客天津的金欢乐的乐道路的道在关注后按提示操作即可加入我们的听友社群

很好也很贵？OpenAI Realtime API 一手体验和 Voice AI 的未来 01:17:56 Share