本节目由津津乐道制作播出
各位听众大家好这里是 RT 开发者社区和金银道博客网络联合制作的博客节目编码人生我们的新节目又来了但是最近有一个热点这个必须得问问我们的几位嘉宾他们最近春节期间可能都没闲着是吧那首先来介绍一下我们的嘉宾吧第一位嘉宾是石老师也是我们的老朋友了来再跟我们刚刚打开电梯的同学介绍一下你自己
各位朋友好我叫石英明之前在智能音乐院现在在自己做实时 AI 方向的创业然后我们主要会关注语音和视觉然后下周会开完一个模型然后希望大家多多关注还是在这个世界模型这个领域吗对对对我们主要是做世界模型方向 OK 那一会儿可以多聊聊你的世界模型好嘞还有一位是来自我们深网的朋友李清伟各位朋友大家好我是三进攻的李清伟第三次上国家节目也是老朋友了
然后我现在在深网的大圆模型实验室做高级研究员从事一些大圆模型的相关研发然后呢同时我也是从零开始学扩散模型这本书的作者哈林费斯中文社区的成员之一 OK 现在你主要在忙什么工作了
最近忙的比较多的事情就是一个大圆模型在音频方面的一个落地使用的一个方向吧就是现在一个也是比较火的一个概念就是大圆模型在全双工领域方面的一些应用哎那像刚才我们说的一样在节目开始我们得聊聊最近春节期间的这个热点大家可能都没闲着啊
施老师怎么看这个 DeepSeek 的横空出世说实话它不能叫横空出世因为我们作为 DeepSeek 的用户可能已经用了大概多半年了
但是突然他有一天火了火了之后我昨天还在发推特我说他火了反而我的业务受影响了因为之前用 AP 还挺快的现在完蛋了没法用了这个确实也给我们造成了一些困扰所以这个横空出世石老师怎么看这件事情其实 DeepSick 他们这个团队啊就做的东西一直都挺扎实的就是
他们最早做 Math Model 在做 Coding Model 项目团队也一直在用嘛所以我们会认为说他在自己的思路上做的一直都是比较稳定的然后破后面放出那个 MLA 然后他们自己把后面推理啊训练需要的各种 infra 都是从头实现的所以其实作为从业者会觉得他们一直都在这个水平
然后这次他们火我感觉可能很多因素导致的吧一方面是他有点出大家意料就是直接实现了一个 OpenAI 他都认可的一套技术对吧然后当然另一方面也是因为
大家过年嘛然后也比较有时间去关注然后同时中美对抗然后国内也需要信心然后当然可能最重要的是美国那边我感觉有点现在受打击了然后他们关注比较大然后出口转内销这种感受比较明显但是市场上会有说法说直接把这个原先 OpenAI 啊等等这些公司的模式给打败了可能大家突然发现
不需要这么多算力啊不需要这么大的投入去做这件事情这个观点你同意吗我其实不太同意是因为这里其实两部分就是最消耗算力的其实是 base model 就是那个大家以前一直说消耗算力那部分那
内部份你会发现 DeepSeq 它也是要纯自己 model 的对吧它那个 671B 的 model 假设给你一个几百台机器你其实并不太可能纯得出来因为你实际上还是需要大量实验大量去调试然后看看到底怎么一个 setting 才能有那一个好的 base model 在这基础上你才有可能去做后面的它现在叫做 R1 或者叫纯 RL 的方式嘛嗯
然后这套流程它其实资源消耗量是非常非常大的然后即使在之前也没有人说 IL 是最消耗训练资源的而是说 IL 是最消耗推理资源的对所以我说从范式上我觉得没有那么大变化嗯所以还要抄底英伟达是吧哈哈我觉得算是认可吧英伟达可能短期确实是比较受冲击但长期我是觉得它还是比较有优势的尤其训练色嗯
新闻怎么看最近的爆火 Deep-seeker 火我觉得是这样的首先它是两方面突然火起来了一方面其实是一个我们业内营业领域其实也就是追了我想想看可能大概是三到四个月
还是半年左右的一个概念就是 COT 在训练当中的使用其实也就是从 XRGB 的 OE 就是这个模型开起来的大家发现就是与其你在训练过程当中堆训练数据然后你试图在他训练过程当中让他建立起这样的思维链就所谓的 chain of thought 这套思维模式对于他的提升尤其是在一些需要推理有什么数学还有一些逻辑解答这方面的问题上面提升要求会更明显
但是呢就是一直吐槽说 OpenAI 其实是 CloseAI 就是它放出来了 OE 但是它并没有解释就是它具体是怎么达到 OE 的效果的然后同时它自己的 OE 的思维链也没有放出来就你会发现你在 UI 上面使用它的时候它其实是过滤过后的一套就是它不会告诉你它具体详细的真实的推理思考过程是怎么出来的对甚至有人原先用提示词想把这个思维链套出来还被这个 OpenAI 触法了对
对没错所以呢这个其实是一个大家积怨已久的事情然后呢就是另一个方向的事情就是我感觉可能是从 GBT3 开始就有这个迹象了就是所谓开源领域和闭源领域之间的互相竞争就是开源模型和闭源模型之间的相互竞争在 DeepSeek 之前就是大家一直默认就是开源模型是在一个追赶这样的大规模的闭源商业模型的这么一个路径上面
包括你看就是像 Lama 各个系列出来就是它的各个方面的性能包括它最大的方面的就是最大尺寸的模型性能其实都还是在一个追赶像 Cloud 2.5 还有像 GPT 这样的一个路上面然后呢 DeepSick 现在也是在追赶但是它可能是目前为止追赶的最接近的一个而且是成本最低的这一个
开源模型所以我很喜欢就是 Hugging Face 的那个总裁就是最近还有另外一个我不太记得名字就是一直在提到就是所谓 DeepSick 火其实不光是 DeepSick 本身在火是 DeepSick 他是站在巨人的肩膀上面他身后有千千万万个就是开源社区的兄弟们搭在他的肩膀上面然后积累出了这么一个成果在一个成本可控的环境下
极大限度的复现了就是 O1 到 O3 的这一条就是 COT 的思维链模型的这么一个结果而且他公布出来说就即使把 V3 的 BASE 模型的成本也考虑进去它也是一个在模型可控的范围内的就是不再是以前说讲全世界似乎好像只有五六家有成百上千个就是最顶级的 H100 H200 就是拥有这种显卡级别的公司才能玩 COT 模型啊
大概你算一下它的成本你可能有个五六十张 H100 就可以
玩一下这条路其实提到开源也是这次聊的比较火的一个话题就是好像我们的普通的用户或者我们的这种不大不小的这种公司终于可以部署一个本地的模型跑一个似乎跟 OpenAI 差不多水平的一个大模型了我看到这个春节之后每个公司好像都在搞这块的事情要
本地部署一个模型或者哪怕小一点量化多一点然后我都要布一个本地的模型你觉得这样会不会推进一个我们之前在节目当中一直在讲的就是这个大模型的这个平民化是吧我可能大模型会用到各个领域以前大家觉得我不一个开源的好像它效果确实不如 OpenAI 不如这种闭源的现在好像差了
差不多了那我是不是可以自己搞一个然后我再去做一些基于我企业自己的训练那可能也会取得一个不错的一个效果这样反过来呢会不会对这些避怨的大模型带来一些挑战呢
我就举一个我身边的例子吧这个东西很实际就是我春节大概过到第三天的时候我有一个朋友我之前一直跟他聊过这方面的事情就是现在很多非 AI 领域甚至非互联网领域非技术领域的一些相关从业人员
他开始更多的考虑在自己的工作中引入人工智能引入 AIGC 技术然后来提升自己的效率提高自己的质量然后我看到了很多就是画家作曲家然后作家在作词方面的尝试
然后呢之前他们确实受到了一些 block 因为就是就像你刚刚所说的就是一个就是币源大模型币源大模型存在一个什么问题呢就是隐私泄漏就是数据安全这个问题其实很多人还是对它非常 sensitive 的
然后还有一个呢就是毕竟在国内使用一些就是效果比较好的稍微会有些麻烦当然你也可以有各种方法但是实际上还是会有些麻烦的然后再加上就是各个方面的原因吧所以之前很多人在跟我聊这些事情的时候都还只是在一个头脑风暴 brainstorm 的阶段但是呢 DeepSeek 这一次就火出来之后就是大概春节初一初二的时候他跟我说他下单了一台电脑
下单那台 Mac 他问我我是去国外买一个 5090 好呢还是直接下一个 Mac 好呢 Mac 现在都卖火了出去都被抢了对然后我就大致算了一下因为首先满血的 672 币的 DeepSkig 肯定是不行的那是另一个 level 的东西了但是 DeepSkig 蒸馏了几个用千问放出来的 7 币 14 币还有 34 币和 70 币的几个蒸馏出来的版本嗯
所以我大致算了一下它如果买一个最顶配的 Mac 的话应该是可以比较顺畅的在本地跑起来一个 14B 大概到 34B 左右的这么一个蒸馏模型的所以我跟他说那也不如买个 Mac 因为 5090D 也跑不起来就是你如果用显存跑的话 5090D 放出来的参数应该是 32G 左右的显存你要跑完全的 14B 对对其实还是有点麻烦所以你干脆用内存方案跑算了
所以我就跟他说你买个 Mac 吧然后他就已经下单了 Mac 了然后我们这两天就已经在研究怎么在他的 Mac 上面就是离线部署一个就是蒸馏好的一个 14B 或者稍微再大一个版本的模型所以这是一个非常实际的一个怎么说呢非常实际的一个对于周围大家很多人的心态这方面的一个改变吧就是确实能够感觉到就是这一波不管是因为什么原因火起来的 DeepSweep 开始
感觉拉近了人工智能到很多一线使用者的 last one male 对但是这里就有接下来一个问题也是我们今天主要想聊的话题今天主要想聊的话题不是 deep seek 而是我们觉得到了今天这个阶段我们基座的这些大语言模型都有了
但是似乎呢就像我们刚才说的这个我们的这些朋友啊你也有很多朋友我也有很多朋友这些朋友春节期间可能都疯过包括石老师可能也是朋友们可能都疯狂来说哎我怎么要用这个 DeepSick 可能更简单的办法就是给他装一个 APP 然后 APP 就开始卡对吧
或者说我能不能用语音去控制它它能不能跟我对话紧接着在用户我们管它叫 UI 在用户界面的这种需求慢慢就来因为它向下渗透了在这一个层面我们总觉得说我们的机座模型就是这个大语言模型和用户之间它应该还有一层
别管用什么样的形式我们用打字聊天的形式像现在一样还是说一会儿新委会给大家介绍的用语音交互的模式还是说用其他的一个模式其实在 DeepSig 火之前我们一直在讨论这个问题就是所谓的多模态好像 DeepSig 这次一火把这话题又盖起来了我们今天是希望把这个话题重新提出来跟大家聊一聊这些模型有了之后我们上面跟众户去对接的这一部分
今天会有怎样的一个进展是吧可以先请这个施老师去讲一讲在这一层上因为你跟用户接触的多啊这个这个在用户这一层上在用户测他们会有怎样的想法和需求我觉得这您刚才说的这个确实是一个点就是实际上你会发现 Deep Seek 这种思路他
Racing 的能力确实很强但是对用户来说你等待的成本很高然后用户体验比较差然后用户也不可能真的坐在那里等对比如说你那个 DeepSick 虽然他推理做得很好但是你总要等着他自言自语对就是说是 DeepSick 那很快但你时间你会发现一般来说下线可能要等十几二十秒甚至两分钟对吧对
那我们其实认为可能 JPG 更好的方案是你有一个对接用户的 model 这个 model 它知道用户所想然后用户的表情它也知道用户到底想做什么从而把用户的需求总结为一个可能叫 prompt 对吧或者一个命令然后交给类似于 DeepSeekOE 这种 model 去做 written 帮你去解决问题嗯然后
然后当他有了结果之后再把这些结果交给用户这样也许是在解决用户体验而不是简单的这个 resonate 的问题对吧
所以这个需求我们觉得是有的另一方面就是现在 DeepSeek 显然是一个纯文本的 model 那么你会发现 Google 啊 OpenAI 啊其实都已经有了自己的这种 Risening 的动模态的模型那也许有一个更小的 Risening 的动模态模型放在端侧去服务用户好像也是一个需求对这两个角度我觉得很重要而且今天我觉得大家可能对 AI 提出期望就会更高以前大家觉得说我要问你问题
现在说你能不能在我身边你能意识到一些问题主动告诉我就是我们今天提到这个话题就是更主动的 AI 嘛这个大家慢慢的对他有更多的需求了所以这个以前他是一个回答我问题现在他能不能站在我身边帮我发现问题
这个可能是新委他们现在在研究的这个方向哈能不能给大家介绍一下就是我刚才说的这个主动的这个领域有什么样新的进展能够跟大家分享一下就像我刚刚提到的就是我现在的主要的一个研究方向就是所谓的呃
全双工对话的这么一个概念全双工这个词其实蛮 tricky 的因为在传统通信领域全双工有另外一层因子但是最近提全双工提的比较火的就是一直在提到就是在大圆模型领域的全双工是什么概念呢就是很多普通用户在使用 AI 的时候其实都有这么一个感觉就是它是一个回合制的这么一个东西就是轮式对话我们叫
就是你说一句话大圆模型一定并且就是他没有选择的就是你只要对他说一句话他必须回你一句话他没有权利就是说讲因为某些原因我这里先不说或者你没有说话我也可以跟你说这是因为大圆模型就是他在每次有输入就必然有输出嘛就所谓的推理一次这样的轮式对话但是呢就是其实这个交互概念跟我们正常或者说是更呃
流畅的这么一个人类的自然语言对话其实是不一样的它更像我们打游戏的时候打那个文明是吧回合制的就像你现在这样我这句话没有说完但是因为你感觉到了你有某些就是情感上面的一些共鸣或者你自己的某些灵光一线即使我这句话没有说完你也会在我说话的中间当中自发的进行你说我想说一句话然后就是由你来自行决定你说话的时机
就是实际上在人类的对话过程当中是这么一个全双攻的概念就是双方都可以自由选择说话的时机并且有不被打断的权利
所以这是一个我们现在主要在这么一个研究方向因为这样的对话有两个好处啊一个好处就是它更贴近人类的真实对话的感觉所以呢你就像现在很多很火的一些情感配料的一些玩法就是我想用大圆模型来扮演我的虚拟女友啊或者什么之类的你会总觉得哪里味儿不对什么味儿不对呢就是你如果真的有一个虚拟女友的话你说话的时候她一定会想办法打断你对吧啊
或者虚拟女友也会沉默比如说问他今天咱晚上吃点啥女友告诉你随便
大模型肯定不知道你把最近附近的十个餐厅都给列出来了然后他如果看到了你手机里面有一些不正常的短信之后他也会主动质问你一些什么事情都是有生活的人所以只有当大圆模型就是在对话当中拥有这样全双功的能力之后他才能够真正的就是我们所谓说的就是进入到我们的日常生活当中他才真正能够像一个人一样跟我们进行交流
然后所以这是我们在研究的就是全商工的领域的第一个重要的概念而第二个重要的概念就是有一些具体的业务场景也需要就是大圆模型在跟人对话的时候拥有这样的自由选择说话的权利和自由不被打断的权利
就比如说有很多你比如说你希望这个大圆模型作为一个线下推销虽然电话推销是个很烦的事情但是我们确实有过这样的需求它是一个典型需求对对对你比如说你要让大圆模型来做电话推销那你不能说这样你
用户说讲你别说话了我不感兴趣你就不说了对吧然后呢比如说你是一个线上的虚拟医生然后你觉得就是用户在那个表达一些某些病症的时候方向歪了那你要能够及时的截断它然后引导它往正确的方向做表达所以实际上就是会有很多这样具体的需求需要它具有这样的权权功能
对石老师你这边做世界模型是不是也会有这样的需求和问题因为一个真实的世界它一定是一个实时的刚刚信伟提到了的是语音那我就从视觉角度简单讲讲就是其实世界模型主要是偏视觉然后视觉这边就是比如说这里有两个可能性一种是 AI 和人的互动这种情况下的实时其实你会发现很像一个游戏就是用户给那个虚拟场景或者叫那个叫 AI 吧给 AI 输入的是指令或者是
你当时你现在的状态然后 AI 侧脚给你返回的可能是视频对吧这样的话就是一个实时的在玩游戏的感觉就是你跟游戏的角色说向左走那游戏的角色向左走对吧这样的话它也是也是一种意义上的实时
然后第一种可能性就是 AI 和这种环境的就有点像自动驾驶或者是机器人就巨神智能就是 AI 它从环境里获得各种各样信息且实时的去判断当前我是否应该采取某些措施对吧就是比如说
我我现在在数字路口了我如果继续走可能就撞了我们即使是绿灯我可能也不应该走对吧嗯这是一种呃这种意义上的事实对呃然后现在其实世界模型大家的也没有想特别清楚他到底
应该长什么样但是可以确定的是它如果希望在现实世界中发挥作用那么刚才说的这些实时应该是比较重要的我是觉得这种实时其实基于两个逻辑第一个就是交互的实时再有一个可能是思维上的实时对
就是对您说的没错确实是就是交换的事实有时候你也可以用比较快的速度来解决对但是你想的就像你刚才说的过绿灯这个例子就是我看见绿灯我就过去了这个很简单但是你没看见还有个车
对他其实要基于整个历史的状态去实时的判断当前的信息所以他并不是速度上的实施而是处理信息要实时的输入且有一个算是因为像我们人吧就是我不会在每一个时刻都看一下当前的情况而是我脑子里会记住所有的信息然后每一个时刻都去判断一下我是否应该采取任何动作嗯对嗯
那是不是可以请辛伟老师给大家演示一下现在你们的这个全双宫的这个产品刚才录音之前给我们演示一下我觉得还挺惊艳的能不能给我们的听友再演示演示我觉得还挺牛逼的因为我知道在 GPT4O 发布的时候他们其实做了一个类似的演示但是我就一直没有看到他这个产品到底
反正我是没有看见真正的能够规模化的应用的这样一个场景但是刚才辛维给我演示完之后我觉得好像是那味儿了能不能给大家演示演示
好的好的那我就主要演示一下就是我们现在正在开发的一个全双功模块我们现在叫 AIVAD 模块就是两个比较大的就是 feature 就是确实在实际对话当中会比较有效果的这两个功能我先演示一下然后之后再来解释具体是哪两个 feature 嗯
身往实时语音智能助手已连接需要我为您提供什么帮助你能给我介绍一下什么是世界模型吗世界模型这个概念其实很有趣呢它最早来自于心理学领域好的你稍等一下你可以继续说了
这种内部模型帮助我们预测和理解周围发生的事情比如说我们知道红绿灯变红时应该停车好的那个我也想跟你说一个故事啊你别急着打断我好吗这个故事可能会比较长就是我今天上午早晨起床的时候就是起的有点晚然后呢就是所以我开车会很急嘛然后因为我在高压上面开的很快所以嗯
所以我就出了车祸,然后呢,我的车也坏了,然后,嗯,我的人也受伤了,所以等我到了公司以后呢,嗯,就,就就就,我这个人感觉就很不好,我今天就过得很糟糕,你知道吗?听起来你今天经历的很不顺利呢,还好没有发生更严重的事情,现在心情有所缓解了吗?哎,我不知道,啊,那就先这样吧,嗯。
就我不知道你们有没有注意到就是刚刚这个 demo 里面有两个跟我们传统的就是你包括现在如果你打开你的 XGB IOS 然后跟他对话的时候就是他现在不具备的两个特点一个呢就是
一开始我提到就是他在说话过程当中我不光主动打断他而且我打断他的时候他可以选择不响应我如果你跟现在市场上的任何一个其他大元模型的音频在对话的时候你无论说什么他一定会给你一个回复对还是就像刚才说的回合制的嘛
对它是一个回合制的就是你只要有 input 它必须有一个 output 那显然这跟我们在实践使用当中的时候很多场景是有冲突的比如说我在跟大圆模型在交流的时候然后我有朋友或者同事什么插入了一个对话我需要让大圆模型静默一会儿
那在这种情况下现在的其他的都不具备这样的功能因为一来他在语义概念当中就是能不能理解你能够需要他寂寞的这个概念是一回事然后他的机制上允不允许他你有阴铺的但他没有凹凸的这是另一回事
所以我们称之为主动静音功能就是一个目前全双宫的侧面展现然后第二个也是一个非常实际的概念就是我们现在在 real time 的音频对话当中你在跟他对话的时候你这句话有没有说完通常是有一个 Ruby 的东西来做判断通常就是取决于你这句话
然后我刚才跟他讲故事的时候我在中间故意的做了一些停顿然后
然后我故意的做了一些嗯啊啊之类的就是语气词然后你会发现我待会可以我现在手头不一定有这个东西就是如果你们这会试一下用比如说像 iOS 版本的 TryGPT 你只要稍微停顿一下它就会开始响应你就是你停顿完了它无论你的语意上面有没有完整它都会不管你是什么样的它有一个 input 它必然有一个 output
我们就称之为强化在这个情况下强化其实是很破坏就是实时音频对话的这么一个感受的比如说你正在沉浸在某一段那个非常 emotional 的那个故事讲述中呢然后你这话还没说完呢他突然开始插一下一句话是很破坏就是实时对话的这么一个节奏的所以
所以这是我们现在在目前开发的这么一个全双工模块所需要具备的几大基础能力之二应该算是我记得石老师你们是也在做这方面的探索和尝试
能不能给大家讲讲你们的产品我们其实也是一直在做全人工的 AI 然后跟刚才信伟讲的有点点区别是我们一直想去把模型改造成原生动模态这样的话它就可以从模型层面实现任意时刻它其实都在输出只是像刚才这个它是主动静音而在原生动模态的情况下它是一直在输出静音的 Audio
这是最大的区别对然后这种方式可能最大的优势其实就是它可以在任意时刻去回复一些非语义层面的比如说 NR 刚才说的这些信息再一个最大的区别是它可以基于语义去
打断人而不是让人打断 AI 这个打断可能不是那么 aggressive 就飞上去让人觉得不舒服啊而是就是有点像用 AI 去引导人说话像您现在的主持人去引导我们俩说话对吧这种引导其实是有助于人去表达自己有助于让人觉得很舒服的
对这种是我们现在在做的如果大家关注这个领域其实有一个公司叫欧洲的叫 Qtai 他们的 model 叫 Moshi 就是在做这个方向你赶紧做出来你做出来我就可以放假了对这个方向其实比较难然后我知道除了全程工以外其实还有一个端到端的一个概念这也是在过去几个月当中大家疯狂在提及的概念这两者之间有什么区别其实
如果从我们做纯模型的角度讲就是端要端和传说工可能更像一个进阶关系就是端要端就是现在的 GPSO 就是端要端就是它可以输入语音输出语音但是你会发现它缺了刚才信伟讲的这个实时对
AIVAD 这个模块就是他没法实时听到你对那一个全程工他就在这个技术上会加入一个这刚才说的实时或者叫 AIVAD 的一个能力吧他可以实时听到你然后知道什么去回答你下一个问题给新伟吧现在的这个全程工刚才你演示的这样一个全程工的这个模型现在有一些比较具体的一个应用落地的场景了吗
最大的应用场景就是就像我所说的就是革新像这种音频语音的智能助手的这么一个沉浸式交流就是你开启了 AIVD 模块或者说就是你开启了全装工模式的语音这样的助手我们可以就是起到一个 always on 的就是你无论你在干什么你可以把你的语音助手放在那里然后你需要他的时候就喊他然后不需要他的时候可以让他进音
然后如果有辅助一些视频方面的输入的话就可以即使在你们有些事情你没有注意到的时候他也可以主动出声然后来给你做一些提醒比如说他看到你或者说是听到你要出门了然后即使你没有做出任何其他方面的输入他也会提醒你说今天天气怎么样你是不是要考虑带把雨伞类似这样的功能这将对于你的私人语音助理或者说私人智能助理的这么一个交互体验感是一个非常大的提升
然后另外一个就是我们刚刚提到就是会有一些具体的落地应用方面需要他有这样的主动打断人的能力和不被人打断的这么一个能力所以全双工的就是全双工其实是一个先有迫切需求然后才有相关这么一个算法方面的就是
你不能叫是概念吧就是算法方面就是尝试在实现这么方向的一个东西就是人确实很需要一个像人说话的这么一个人工智能不然的话他只会觉得这个东西还是哪里有点不太对劲他只智能了没有人工是吧对对对就是这么一种概念我其实有个观点是 AI 这么多年的发展历史本质上都是在无限逼近人各个层面的逼近人现在只是在实际上常是逼近人对对对对对对
刚才提到了一个我觉得这个概念挺好的叫环境感知就是他不仅仅是在听你说什么你在聊什么而是说他能不能感触到你在出门你正在穿衣服换鞋然后这个时候给你提示一下今天天气怎么样在这个环境感知领域石老师这边有什么新的
研究和发现吗我觉得这个确实我现在畅想了一下从用户的角度畅想一下比如说现在我们家可能会有摄像头那这个摄像头将来接触了 AI 它是不是就能感知到我将要做什么它给我一些更实时的
提示不是说我必须问你一个问题就像刚才说的问一个问题你给我一个回复就是特别傻我每次出门之前我可能都会问那个什么问天气怎么样我出门路面太散了就挺蠢的那他如果能够感知到我正要出门且外面要下雨了他直接给我蹦出来去岂不是更好这
这个从技术上说实话现在进展不算特别大但如果只是说实现这个效果现在其实应该算挺多团都在做吧就比如说各种端凑的多模型然后世界模型我觉得在某种意义上也属于这种就是他们核心是就是知道怎么去理解人或者说环境的当前状态
然后如果端层的呢其实就是说我每时每刻都在做 influence 我看看当年用户是不是有需求然后环境是不是发生了什么事件对吧这是端层模型的如果从世界模型角度去思考这个问题它就是我会去判断一下当前这个状态往后继续发展的话会不会带来一些正面或者负面影响那我就可以根据这个负面影响或者正面影响去提前去做一些准备
我觉得技术上肯定有发展但还没有到大家想象中的水平这里还欠缺什么呢是我们的基础模型不行还是我们训练的数据不够还是说它的卡点会在哪儿
我觉得是现在 AI 的功能方式不对就是像刚才辛伟以及我们俩都在提的这个所谓的全生工他希望的是 AI 一直在 input 他会把过去的 input 放在自己的 memory 里面对吧你也可以叫放在 context 里面但是现在已经接近逻辑的模型他怎么做呢他是把当前的状态作为 input 然后去预测就是下来要么发生什么事情或者是有没有危险他不会基于完整的历史信息这样
这样的话它的计算成本会高很多因为你要把就是每时每刻比如说都要输入五秒钟的视频这样你的代价就是五秒钟而如果是全人工则是每次自己需要把当前这一帧那比如说一秒十帧那你的成本就每次输入这一帧就行了成本会下降非常多
所以我觉得工作模式的现在不完善会导致现在这个事情还不太好做是不是跟现在模型所需要的算力也有关系呢
就像刚才我们一开始聊到的不可能每一个我们中呼家里都本地部署一个大模型这个成本好像就目前而言有一些高昂是吧端侧当然你算力越强越好了这个没这个疑问但我觉得就我前面提到就是穷生工其实更像是端到端的一个进阶板现在端到端刚刚处于好像能落地的状态那么穷生工想要能落地还是需要
需要一些时间然后据我所知 Google 和 OpenAI 其实都在做这件事情 Anthropic 好像没有太大进展但也是刚组建了相关团队
对我觉得可以期待比如 2025 年有一个接近能用的东西吧就总感觉我们之前在科幻片里看到的一些东西都慢慢的会变成一些现实对甚至比预想的还要快一些说流量地球已经改了三次台班了不然就变纪录片了对比较卷
辛伟在这一块有什么你的见解吗我觉得影响全双工这种使用方式在世界模型或者说是视频全双工最大的问题其实就是算力和推理成本
就是刚刚我提到的那个就是你比如说你出门的时候然后他意识到你出门了就你没有主动问他他意识到你出门然后提醒去查了天气预报然后提醒你带伞这么一条解决问题其实在我们现在是音频模型但实际上我们实践它的过程是一个三段式的过程就还是 ASR 转文本然后文本大模型然后文本出推理这么一个过程就是在三段式里面其实是一个非常好解决的一个问题
就是用 COT 解决就是你设计好一套就是 COT 的思考回路然后对于一个固定时间窗的 input 其实对他来说因为已经由 ASR 转成文本了嘛那实际上就是对于就是每个一个固定时间窗他收集到的环境信息以文本的方式提供给他的环境信息
他经过一套固定 COT 的就是思考过程之后他会输出一个 output 这个 output 就是根据环境信息他决定当前的 action 其实是一个马尔可夫链的过程就是所谓的全双弓是一个马尔可夫链的过程就是大模型自己在多个状态之间做切换然后他
做切换的这么一个逻辑是基于一个条件概率这个条件概率就是刚刚施老师提到的就是之前的 memory 和当前的一段时间的一个时间状态
然后你基于这个条件概率然后他决定当前状态是在若干个全双宫状态当中的切换比如说是 speak 状态啊 listen 状态啊还是打断你的那个状态他在若干状态之间做证明马尔可夫链的切换过程然后你的这个 COT 的过程呢就是一个其实上就是计算这个马尔可夫链的切换状态的这么一个概率的过程那么对于他这个大模型来说他的思考活路就这样的我
我观察到了当前状态我观察到了之前 memory 里面可能是以文本的形式记录的或者说是以其他方式记录的这么一个状态然后我根据我的 COT 实际上就是在计算一个马尔可夫状态然后根据这个 COT 的过程我得出我现在要在哪些状态中进行切换我是从 speak 状态切换到 listen 状态呢还是从 listen 状态切换到 speak 状态呢然后当我决定了这个 state 之后我就是相当于我 COT 已经 thinking 完了嘛然后基于这个状态切换我继续往下做推理好比如说我现在看到了
我听到了一些疑似你在穿衣服要出门的声音然后呢根据我的 memory 状态里面我看到了可能我们之前聊了一些就是今天的出门计划呀然后呢我 observe 到了现在的时间这些东西都是可以作为一个全双空的这么一个人工助手就是固定输入的就是你每隔一秒钟或者每隔 640 毫秒然后给他发送一些这些状态告诉他现在是几点告诉他当前的你观测到一些环境状态是什么
然后他根据 COT 得出了一个结论然后触发就可以了但是呢这一套过程你只要往视频上面一搬这个计算量就没法说了所以最终决定就是这个东西能不能够放到就是多文化领域的核心卡壳的 block 的点说白了还是算力的问题
就是你能不能够在人能够接受的延迟范围内处理完这些信息计算完马尔可夫状态的
状态转移方程然后得出这个东西是一个非常非常非常重要的事情那现在做到了这一步像生网现在的这个东西做到了这一步那下一步你的优化方向会是什么从全双宫的角度来说我们目前其实只做了怎么说呢只做了一半就是我们现在优先在做的事情就是刚刚主要就演示的那个就是大模型你即使有一个输入大模型有权利选择不说嗯
就是他可以你比如说你让他 shut up 然后他理解了你的这个语义概念他说好我不说我不 output 或者呢就是他你说了半句话这个话没说完你嗯啊啊了一会儿或者你稍微静音了一会儿然后你继续往后说的时候他可以中间不抢话本质上就是他也可以不说这一部分相对来说是比较好解决的就像我刚刚所说的他只要收集足够的 input 然后算一个马尔可夫概率然后切换状态就好了但是呢反向的全双攻其实是一个更困难的一个什么事情就是
他不光可以决定什么时候不说他还可以决定什么时候说我这句话说了一半对对对你看你现在做了一个打断我的这么一个操作但是对于大模型来说主动打断人是一个非常困难的一件事情为什么困难呢是在于机制就像我所说的目前的对话基本上就是优先保证人不被打断而设计出来的他其实并不希望就是在这个框架里面他其实不希望人被打断的
就是人会在说完之后静音了一段时间然后这个语音感知模块才会把这个东西发送给大模型但是呢既然大模型必须要有 input 才会有 output 就是这个 output 可以是空但是你必须要有 input 才能有 output 那在这个情况下它没有去中途打断你的权利因为你这个话没说完的时候它是不会 trigger 这个大模型做 influence 的所以这个是一个比较 tricky 的一个概念就是完整的全声功需要大模型比如说大模型觉得你这个话说错了
大部分人觉得这个时候甚至他不是觉得你说的他可以我们有一个就是语言学里面有个概念叫做复合词什么叫复合词呢就是你现在就在说好的这是一个非常就是以一个就是像这种语气词或者简短的词来鼓励对方或者说表达这么一个认可态度的这么一个说法其实我并不是为了打断你但是我也需要说
这是一个在人的交流当中非常重要的一个概念不然的话你就会觉得好像自己就是为什么我们今天聊播歌的时候你说我要看到你的肢体语言对吧其实对于大模型来说也一样人跟大模型对话的时候大模型如果没有任何反馈的话他好像觉得我看不到大模型的肢体语言我听不到大模型是不是复合或者什么之类的对吧
对你会老觉得这个模型是不是挂了然后所以就非常影响这个体验你知道吧所以完整的全双弓需要有这么一个框架上面的设计就是大圆模型不光能够决定什么时候不说话他还要有能力有机会决定自己什么时候说话那这一步现在进展怎么样
框架比较麻烦就是需要把整个对还在努力当中就是整个框架有这样的设计已经设计好了但是就是会有各个方面的小问题还在等着解决那也比较期待这个东西说回到这个大模型的这个能力方面因为施老师搞的这个东西就非常的前沿我总觉得他搞的东西特别前沿从世界模型的这个角度来看
是不是也会有新委现在遇到的这个需要努力的这个方向和问题我相信你可能更多啊对世界模型这边其实好像大家连什么叫世界模型都没有理清楚可以给大家介绍一下什么叫世界模型因为上期节目好多朋友就在评论区问我什么叫世界模型好像没有说得特别清楚这个我也定义不出来但是我可以给大家讲一个感觉吧
世界模型核心是希望去有点像预测我们把它叫做 state 到 state 的预测嘛就是比如说你当前已知他们这个房间里的每个人的状态所有环境状态那你去预测一下比如一秒钟之后那个各种状态对吧比如杯子要倒了或者是我要出去了对吧这样当你知道这个状态之后那么你就可以
比如说做一些更好的决策这是这一种可能性另一种可能性是你能够模拟这个世界运转状态那么你就可以在虚拟空间里比如现在大家讲的自动驾驶去做仿真然后也包括各种各样的机器人数据的去合成对吧
都可以在虚拟空间里直接去拿到了这个是从比较宏观层面讲的世界模型但你你从实际角度上你会发现现在所有的世界名字叫做什么呢它更像多模态模型就是怎么让模型输入比如语音视觉这两种模态当然文本肯定是一般都是需要的但
不要也行吧但是一般是需要的对然后那个同时还要保证他有那个输出能力比如说输出视觉能力那现在语音一般都不太好像没有太参与到这个世界模型的训练就
就比如 NVIDIA 的 Cosmos 它就可以做到基于当前的比如你这张照片它就预测这个环境的整体的 3D 的状态那个 Cosmos 出来的时候其实也蛮火的这次我们录音也是我跟咱们同学说这个 Cosmos 是不是咱们可以去聊一下
对其实 cosmos 某种意义上很符合我对于世界模型的一个想象它也不完美但是你会发现它几乎可以做到那个一致性就是对这个环境一致性的建模就比如你给了他当年这样一张照片照片里有一个杯子有一个电脑
那么你可以让它模拟围绕这个杯子这个电脑去转一圈然后好像宛如它在一个三定空间里在行走一种这种能力对吧这种就好像是在告诉我们模型学会了这个世界的状态对
所以它接近于世界模型的终极形态但另一种方案就是李飞飞老师他们那种真的就很像建模的那种方案我个人可能会觉得就是李飞飞他们那种方案我不太会把它叫做世界模型但它确实
像是一个建模工具对他做了什么呢你给他照片他帮你在 3D 空间里把它建模了对但那真的就是个 3D 空间的建模而不像这和装修公司用的对这两个 Cosmos 和李飞飞他们那个东西的区别是啥呢就是 Cosmos 其实是在影空间里做建模
他没有说你这个端点它就是一个三面体的拼接那个端点是一个圆这是 cosmos 而李飞飞他们那个呢真的就会把它建模为一个比如三角形一个正方体对吧这是他们的从原理上的最大的区别目前我至少在学术界大家会认为说沿着 cosmos 这条路可能好像更接近于世界模型吧那现在你们的研究方向和进展是什么
我们现在其实也是沿着 Cosmos 这个方向在走但是在它出来之前我们就走了然后我们现在就去年初吧放了一个 paper 叫 Pandora 然后现在在做 V2 V3 从我们的感觉来看
世界模型想要去比较好的保持一致性还是有难度的就是我们自己内部的版本也没有达到一个很好的一致性然后但是可以确认的是它可以去对啊这环境做一定程度的模拟就比如说往前走会发生碰撞比如你可以让它跳起来之后那个与这个物体要么碰撞要么不碰撞这种模拟这些是可以做到的啊
然后你也可以去模拟一个机械币对于这个虚拟环境中的物体的交互就比如说把这个苹果拿起来把这个东西给擦干净对吧这种模拟是能做到的这在宏观层面确实还不太成熟从具体的应用的落地的角度来看这个世界模型最后落地下来会是怎么样一个产品形态呢
嗯其实现在最直接的落地产品形态其实就是面向自动驾驶巨人智能就是因为它可以模拟任何一种比如机械臂或者机器人它的运动然后从而去生成各种各样的数据这数据指的是比如你往左走就会发生碰撞那么我们的模型它应该学会不要碰撞对吧这是一种给它提供反馈的机制然后另一个大家
幻想中的应用场景是说现在所有的模型训练都需要 RL 对吧就是强化学习那么世界模型它就可以作为那个 reward model 去工作就是帮 RL 提供 reward 就判断这样操作是对的这样操作是不对的这么一种应用对
所以其实他是在帮助机器来理解我们这个世界对你说的完全没错就是他本质是一种最高级别的对世界的理解其实你就建模也行但差不多这意思 OK 其实建模也是从一个二维的想象成一个三维的对是是的是的是
节目最后还有一点时间我想请二位干一件什么事情呢因为这是我们新年以后的算是第一期节目吧而且在这个过年的期间真的在这个大模型的领域我们又有了很多很多的进展就是让我们用四个字来形容绝对不过分叫瞠目结舌是吧
从去年到今年我们总说要预测一下后面的我们的 AI 的世界会是怎么样的那能不能请二位嘉宾分别以你们现在的研究方向和
对 AI 的这样一个技术进展的认知来预测一下我们到 2025 年底我们的 AI 应用会变成什么样给大家描述一下这个场景比如从世界模型的角度也好从这个全双宫语音的这个对话的角度也好能不能预测一下到 2025 年底咱不能写科幻片啊咱就当纪录片来看到 2025 年底我们能看到一个怎么样的一个 AI 产品的世界
来石老师先来吧这个话题比较大我就从我能接触到的几个事情角度入手吧第一个是这个智能眼镜就是现在智能眼镜可能我觉得真的是玩具啊就是能跟他聊天对吧能问几个问题
但就是随着这个动态模型它会在 205 年一定会非常成熟的那么眼镜这一侧它是很有可能会发生一个变化是它能够真的去理解这个世界的发生的事件比如说盲人可以带着一个正能眼镜去在大江走路而不需要飞要一个盲道对吧然后它也许可以用眼镜去代替它的导盲犬这是呃
我觉得从模型能力上是一定做到的但是就是从算力上以及功耗上是否能稳定这是另一个问题了这个必须需要端到端的模型了吧不一定端到端可能更多的是动物态输入就是他得能真的理解这个世界的这个事件比如说你右边会有个车可能在三秒钟之后会到达对吧你要帮他评估一下这三秒钟是否足够过去不应该过的话他应该提醒你不要过停在这里这是导盲犬在做的事情对
所以我觉得眼镜这是一方面然后另一方面就是配合眼镜的话它可能在交互上会有一个变化就是大家以前会觉得智能眼镜的语音很重要但从我过去一年的感受来看智能眼镜好像需要一个辅助的硬件就比如一个戒指或者是手环或者是手表对吧
它提供的是什么呢是额外的输入就是一种能够让你跟虚拟环境做简单交互的一个手段就比如你点一下戒指就代表我同意你的操作你可以去开始跑后面各种 agent 了帮我买机票帮我去订车对吧同意和不同意所以假设有这么一套流程的话那么下一步就是 agent 好像就会很关键
就是在 2025 年 Agen 的这个层面应该会至少有一部分是落地的就比如现在 OpenAI 在做的那个 operator 然后 Cloud 在做的那个 computer use 然后当然还有很多做浏览器端的 AI 这些它能帮你在云端去做各种各样操作而你只需要在要么智能眼镜要么在手机上去发指令这个是能从技术上是一定能做到了的
然后可能下一步就是它具体的运用场景大家还不是很知道对我觉得这我就是说这三个大的场景吧西北能不能帮大家展望一下我觉得在 2025 年今年最重要需要干的事情或者说是很有可能干到的事情其实就是像 Deep Sea 这样的思考模型或者说是 COT 在实时互动 AI 领域的落地应用就像我们刚刚提到的就是
COT 是一个非常重要的一个概念它能不能够在实时互动领域使用其实是一个从零到一的这么一个过程因为从大圆模型诞生之初开始学术界就一直对它有
有疑惑或者说是有很多原教旨主义者对于大圆模型是不是所谓的 AGI 就是通用人工智能模型就是有一个很大的疑问因为本质上大圆模型是在你和一个相关关系他并不理解因果关系就像刚刚我们提到的就是世界模型一个非常重要的概念他要建模这个世界建模这个世界最重要的事情就是他要理解这个世界背后的因果关系什么东西撞到什么东西他到底是会爆开还是会穿过去还是会把另一个东西撞下去
对于大圆模型来说它只是在很多很多的数据里面看到了类似这样的东西然后它拟合了这么样的一个相关关系但它其实并不是在拟合后面的这么一个因果所以
在加入了 COT 的情况下就是大圆模型非常接近于在用足够缜密的相关关系来接近于你和这么一个因果关系的过程就是我们能够看到在实时互动很多领域你是需要这么一个 thinking 的过程的就是你让他扮演某一个具体的角色他需要时时刻刻的去思考作为一个角色我这个时候应该说什么话作为一个什么角色我这个时候应该做什么事情
但是在你没有办法加入 COT 之前它本质上就只是一个非常模糊的一个黑盒的一个相关关系就很容易导致出错
但是就像我们刚刚所提到的就是因为 thinking 过程是个很长的一个时间就是大家在使用 deep think 的时候可以看到就是你问他一个问题然后他自言自语也好然后他自我思考的时间也好他通常 10 秒钟就过去了但你在实时互动领域这个过程你是不可能超过一秒的所以我认为或者说是我希望能够在 2025 年有一个非常
推理足够快的一个 CVT 模型然后或者说是在硬件的底层的就是算子推理加速这方面就是有一些比较大的进步能够使得这么一个不说多吧就是二十几个 token 以内的这么一个 thinking 过程能够压在一秒钟以内那我觉得就是在实时互动领域一个非常重要的一个巨大突破但是这可能会对整个大模型的现在目前的这样一个机制做很大的改良啊
希望有一个足够小的模型能够达到目前的很多比如说 14B 或者 30B 因为我们能够看到很多 3B 或者 1.5B 小于 3B 的现在 thinking 能力很弱就是有很多实验或者复现尝试小于 3B 的模型 thinking 能力很弱但是如果假设有一个 thinking 模型能够小于 1B
然后在一些就是相对比较强的硬件或者说硬件上面有做针对性优化的情况下它其实是有希望的就是在不改变模型架构本身的情况下其实是有希望的 OK
但是现在我们可能还没有发现这样非常好的这样的一个方法还差得远感觉还差得远看看 2025 年我们有没有希望因为 2024 年我们聊的时候可能还没有 DeepSeek 我们可能还想不到这样的一个开源模型能够把这个 OpenAder 这样的闭源模型给它拉的差不多了可能 2025 年真的还会出现这样一个快速的一个进展也未可知是吧
好 今天特别开心啊 这应该是我们春节上班之后的第一次录音算是然后呢跟二位展望一下 2025 年的这个技术趋势吧因为说实话今天乐到这么多档节目让我每次录的最轻松的就是我们编版人生
因为第一个呢是算是我的本行第二个呢也是每次都会给大家充满希望是吧不像这个其他的节目聊聊好像大家就都阴谋了这个技术的发展真的还是让人蛮振奋的尤其今年这段时间确实是这样所以呢也希望我们 2025 年能看到更好的一些技术的发展迭代啊等等这些东西
那我们今天的编码人生的节目呢就先跟大家聊到这里感谢大家的收听我们下期节目再见拜拜拜拜
感谢您收听本期节目本期播客节目由金金乐道制作播出您也可以在我们的官网 dao.fm 找到我们的更多内容作品如果您喜欢我们的节目欢迎在微信微博朋友圈等社交媒体转发分享您的分享对我们而言十分重要如果您希望与我们互动可以关注我们的微信公众号金金乐道播客天津的金欢乐的乐道路的道在关注后按提示操作即可加入我们的听友社群