We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 01.苹果发布会后,我们和OPPO语音助手负责人聊了聊

01.苹果发布会后,我们和OPPO语音助手负责人聊了聊

2024/6/13
logo of podcast AI课代表

AI课代表

AI Deep Dive AI Chapters Transcript
People
万玉龙
Topics
万玉龙认为苹果此次发布会符合预期,Siri的跨APP能力提升是惊喜,这体现了苹果对AI的应用和规划,以及对终端优势的理解。他详细分析了终端厂商的优势,包括入口优势、能力优势和端云链路优势,并指出苹果Siri的跨APP能力提升了用户体验。他还解释了端侧和云侧大模型的协同,以及选择第三方大模型的标准(效果和效率)。他认为端快云慢是一个伪命题,端侧安全并非必然,关键在于加密措施。他还探讨了大模型的商业模式,认为其可能类似于搜索引擎。最后,他谈到了手机厂商自研和第三方大模型并行的策略,以及未来智能终端的发展趋势。 娜娜作为主持人,引导万玉龙就苹果发布会、Siri升级、AI发展趋势、大模型架构、端云协同、隐私安全、大模型商业模式、以及未来智能终端等话题进行深入探讨,并对万玉龙的观点进行总结和升华。

Deep Dive

Chapters

Shownotes Transcript

嗨,请就坐,我们今天的 AI 课代表即将登场,它将为您带来当下最新鲜的 AI 知识点,您准备好了吗?

哈喽,欢迎收听这一期的 AI 课代表,我是主播娜娜。

这一期我们请到的轮值课代表是 OPPO 智能语音助手小布的业务负责人万玉龙。

玉龙在负责 OPPO 语音助手之前,也曾深度参与过操作系统和基础大模型的研发,可以说是 AI 硬件的一名六边形战士。

那这期节目的录制时间呢,是在苹果发布会后的第二天,相信大家都已经有所耳闻,苹果这次花了一半的时间在谈论 AI, 作为同行,我们的课代表玉龙对这场发布会自然也有非常专业的见解,它提醒我们关注有大模型加持的新版 Siri 在不同 APP 之间的穿梭能力。

Siri 的无处不在,给硬件厂商带来了哪些启发,又对隐私提出了哪些挑战呢?

它还非常清晰地拆解了端侧和云上的大模型是如何实现协同的。

端侧更快,云上更慢其实是一种过时的说法,同样的,端测部署更安全也是一个需要被挑战的观念。

好了,以上就是我的简单介绍,下面请收听我和玉龙的这期对谈。

玉龙你好诶!

哈喽哈喽。

首先想请玉龙谈一谈你对这场发布会的你的一个观感,作为一个同行,你是怎么看这场发布会的?

我觉得苹果的这次整体观感下来,我觉得对 AI 的投入和规划其实也是符合预期,与此同时有一点点额外的惊喜吧,符合预期是体现在作为一家智能终端厂商,它在对于 AI 的应用和规划其实是比较匹配它的定位的,它能够比较清晰的理解作为终端的一个优势在哪里,而不是去盲目地去跟随很多智能 AI APP 的一些产品策略。

有一点点惊喜的话,就是它的确在这个找准定位的基础上,很好地把它自己的应用的产品策略和更广度的一个应用生态考虑的比较周全,就是它的 APP intent API 这套开发者生态其实很好的让更多的三方开发者也能够进入到它的新一代的 Siri 的应用生态里面来。

然后同时让 Siri 承担了一个很重要的角色,是帮助用户能够更加自然地通过语音、文字去操控整个手机里面的各类的应用,包括一方应用和三方应用。

这个是我觉得稍微有一点点惊喜的啊。

就其实发布会前大家也都知道,这次重点之一就是这个 Siri 的升级,但是 Siri 真的做到这样一个集大成,尤其是像你说的它有一个 APP intense 的这样的一个接口,能够把跨 APP 的这个能力都调用起来,其实还是有点出乎意料的。

这几个事情是彼此有连接的,就他因为有了 APP intense, 所以他做到了一点,就是真正让 Siri 无处不在。

他这个 Siri 可以在这个 APP 里面出现,可以在自己的 APP 里面出现,可以让用户在任何场合去呼起另外一个 APP 的服务,这件事情其实是对用户的体验来说是一个很好的一个提升,这件事情其实很值得我们去学习。

对这个 Siri 可以改名叫 Siri o Siri only Siri 无处不在。

你刚刚提到了这个终端的优势,可以讲一讲吗?

作为一个手机的终端,它的优势和做一个 APP 应用到底在哪里?

其实很多人都有这个疑问对吧,因为现在也有越来越多的一些大模型的应用出来,一个人手机里可能装的都不止一个。

那今天作为一个终端厂商,一个手机厂商,他去做一套 AI 的系统,核心的区别在哪里?

优势在哪里?

首先专用厂商本身作为用户直接去对话的一个设备,它拥有很强的一个入口优势,不像一些应用的话,需要用户主动点开那个应用,再去在应用里面通过一些按钮或者其他的方式去触达或者说触发一些交互。

终端厂商天然的通过很简单的一些硬件,比如说电源键或者语音唤醒,就能打开智能助力或者打开 AI 的能力,然后很方便地快捷地去操控很多背后的一些服务。

苹果 Siri 其实这次让大家看到了,就是它不仅可以通过识别你的语音,也可以通过结合你当前屏幕的一些信息去给你提供更加自然的一个交互方式,这个其实就可以看到他把这件事情想得比较清楚。

第二个就是能力优势,就是因为终端厂商其实具备很多的底层的一些 API 的调用的能力,能够方便快捷地在多个应用之间去交叉地去做一些横向的一些调度,这个调度能够方便用户通过一句话就能完成很多多个服务的一个编排跟串联,这件事情其实对于一些应 AI 应用的话是没办法完成的。

第三个就是整个端加云的呃链路优势,因为端在终端厂商手里,所以很多的算力其实是终端厂商能够去做一些很好的利用的啊,它可以结合端侧的一些不管是算法的优化还是芯片的优化,以及在端和云之间的整个安全链路的保障,能够确保安全可信的去服务于终端用户。

这个是实际上是很多 AI 应用在终端厂商面前可能没有那么有优势的地方。

其实你刚刚提到了三个点,可以简单总结一下,一个是对于手机操作的体验会更流畅,还有一个就是不同的 APP 之间的关联也好,整合也好,或者我看刘作虎用了一个词叫穿梭对吧?

对,在不同的 APP 之间穿梭啊。

然后还有这个算力,因为其实一个智能的硬件,它一定是在端侧跟云端做最好的这样的一个协同,去调动它不同的层面的算力来匹配它不同的这个需求。

对,我觉得至少这三个点是有优势的。

那对于我们来说,小布在弹幕型出来之后一直采取的产品策略也包括四大类,第一大类就是我们希望能够通过用户的请求去完成对于整个手机的更方便的操控,我们叫做用机助手,这个其实也是智能手机的智能助理一直也想去完成的很好的一个基础体验。

第二大类的话就是通用问答,其实类似于 Siri 现在去调度 GP4O 去完成一些对于线上实时信息,事实性信息的一个回答。

那第三大类就是智能创作内容的润色呀、补写呀,或者说一些创作类的一些任务,这个创作不仅包括文字类的创作,也包括一些图像类的创作。

那第四大类就是有点类似于传统的智能客服,需要去帮助用户去回答一些过往可能必须通过网站的一些客服通道或者电话才能完成的一些任务,我们叫做品牌问答。

其实 Siri 在它的发布会讲的很多事情跟我们前面三件事情是很类似的。

其实大家的功能点还是比较的集中,你觉得这个背后的原因是什么?

我觉得背后的原因还是比较简单的,不管是 AI 技术还是传统的软件技术,本质上都在满足用户的需求,用户的需求实际上是不怎么变的。

比如说我,我举个例子,苹果跟我们都在搞通话摘要这件事情,背后的需求实际上是一直没有变过的,就是用户啊,希望能够在打电话的时候,一方面跟对方能够保持很好的沟通的呃内容,另外一方面能够在打电话之后去完成一些通话里面可能要交代的一些待办项,然后甚至说我当过一段时间想去回查这个通话记录的时候,也能够有地方可以看到这些。

其实这个需求一直是有的,只不过在以前没有通话录音和通话摘要的时候,用户可能是拿一个笔拿一个本子记下来,或者说再拿另外一个软件去把这个东西记成一个待办项。

只是这一次 AI 能够让这件事情更加丝滑的融入到这个场景里面去。

AI 并没有改变用户的需求, AI 只是让用户需求的满足完整度变得更高了。

包括像这次苹果也做了 AI 消除圈,一下就能把不想看到的一些物体给消除掉,这个其实国内的厂商几家也都做了,然后我们在这方面也是非常有竞争优势的。

那如果说这些单点的需求都比较雷同的情况下,未来的差异化优势在哪里?

我觉得差异化优势就在于说,首先短期的话,就看谁能够先对用户的需求了解得更加透彻,然后能够更加优雅地去通过自己的技术手段去满足用户的需求。

这件事情还是挺考验专业能力和用户感知能力的。

同样一个需求,可能你的入口使用路径差异,就会导致用户对于这件功能的满意度有天壤之别。

其实这个背后有三大问题需要去解决。

我经常会抽象出三大问题,叫做不知道、不会用和不好用。

不知道就是其实现在手机里面已经有很多 AI 功能,但是有多少用户到底知道这些功能在哪里,或者说知道这个功能能干什么?

这是第一大类问题,就不知道第二大类问题就是不会用。

举个例子就是通话摘要,有不少用户知道,比如说 OPPO 手机里面有这个功能,但是有多少用户真的会用这个功能,把它用好?

第三大类问题就是不好用,或者说体验还不够优秀。

这个其实回到了说我们如何通过某种方式,不管是 AB test 或者是其他的一些产品设计,来确保当用户找到了你啊,然后会用你的时候,能够让用户真的用得很爽。

他可能觉得哇,我用完之后,我已经回不到以前的使用习惯了,我真的特别依赖这个功能,这件事情也很重要。

我在想这 3 个问题,其实归根结底,对用户来讲,他真正需要感受到的就是好用,他也许不需要知道这个功能点,但他可能自己就无意识地就触发了。

因为我有一个女儿,她特别小,我就在给她选儿童玩具的时候,我就发现很多妈妈会分享一个经验,就是说这个玩具可能不适合这个年龄的和儿童,因为他自发的这个能力,他无法去了解这个玩具怎么玩,他就会很有挫败感,他第二次就不想再玩这个玩具了。

所以我觉得这可能有相通之处啊,就成人的一个玩具,成人的一个生产力工具,它可能最好的最优雅的方式是你无意识地触发它的功能点,让你觉得哇,好好用。

对,其实苹果在人机交互这一块一直是行业的标杆吧,就他把很多人机交互的背后的理念,包括实现方案都想得很值得我们去学习。

就像苹果乔布斯发布第一代 iPhone 的时候,他一直在强调一个东西,他说最好用的工具不是一支笔,而是你的 finger, 你的手指。

所以它在全面屏这件事情,或者触摸呃多点触控这件事情上,让用户很方便快捷地去基于 GUI 去做很多这个服务的操控,然后基于这个产品策略,其实会发现,不管是你刚举到的这个小孩的例子,还是老人的例子,其实他们拿到一个 iPhone 或者一个 iPad 都能够很快速地使用起来。

这件事情其实就是刚才你刚刚说不好用的那个解决思路,就是它可能是真的让用户很丝滑的用起来,用起来之后他也不需要特别高的学习成本就能够掌握这个的使用技巧,而且用完之后真的觉得这件事情很好用,之后它会不断的使用这个东西。

你刚提到乔布斯说的这个手指可能是最好用的工具,所以它其实也塑造了我们这一代人他这个交互的习惯,可能是一个图形的界面。

上次其实我们也有聊到,每一代人是不太一样的,可能我们的上一代更多的是文字输入,我们这一代图形,那你也认为说下一代有可能是一个语音的一代,就我觉得这个还挺有意思的,因为 Siri 这次他发布的一个数据啊,就是说现在可能每人每天只和 Siri 说不到两句话,因为他说的一个数字是非常大的,就是每天的请求有 15 亿次,但你平摊下来每人每天其实只有两句不到的话,跟 Siri 说,可不可以理解为就是苹果的 Siri?

11 年 发布是一个过于超前的产品,或者它的时间踩在了一个不对的时间上?

我觉得也未必。

首先 11 年 那个时间点还挺神奇的,那是乔 Siri 应该是乔布斯在去世之前力推的最后一个产品,搭载的 iPhone 4S 上线。

在那个时间点,乔布斯更多是一种情怀,他在体验完 c 瑞之后,他力推这个产品上线,是因为他觉得在未来很长一段时间里面,人机交互的自然,嗯,这个方式要更加贴近人的自然表达,语音就是其中一种非常自然的方式。

文字其实是人类文明的一种知识承载体,但是它不是最自然的一种交互方式,像小朋友他在补识字的时候,他还是可以通过语音去操控设备。

还是挺感谢乔布斯能够在 11 年 那个时候把这个产品推上线,让更多的人至少从理想的维度上对这件事情有期望吧,才使得过去的十几年,其实各行各业都在往这个方向去探索啊。

那回到说弹幕先出现之前的语音助手,我用语音助手的频次差不多跟刚才举的那个数据类似,但是我去解决的实际问题还是比较明确的,就是我会查个天气,定个闹钟,包括查看我的日程的时候,我会快速的通过通过语音去控制。

这个其实已经极大地去解决了我过往可能需要点开一个 APP, 或者说你一定要点开一个闹钟,然后通过波轮或者说 GUI 的方式去操控的这个复杂度,那随着大模型的出现,过往基于规则,基于统计模型的技术,能够把全世界的知识压缩到一个大模型里面去,通过记忆加预测去实现智能。

这种方式让你的问题的理解跟问题的回答能够变得更加自然,用户可以问弹幕性,任何问题弹幕性都可以结合他对知识的理解,包括结合线上的搜索和搜索分享,能够给你更加及时更加自然的一种回复。

那在这个基础上,我相信语音助手这种形态会让越来越多人意识到说我原来可以通过这么自然的方式就可以去完成,原先可能通过搜索引擎,可能通过其他的一些方式才能解决的问题。

Siri 的出现其实让以前的服务形式也发生了很大的变化,以前的话我们获取一个单个服务都要点开单个 APP 去获取,比如说我要查询一个商品的评价,可能我要点开大众点评,我要点开小红书。

那其实 Siri 这次跟大家讲的一个概念就类似于刚才你提到的穿透搜索,它让很多服务的内容能够通过一句话在背后通过 Siri 去把它串联起来,用户不再需要去点开多个 APP 去来回的切换寻找他想要的信息,而他只需要通过一句话让大模型帮他去把这些复杂的一些操作给简化。

那这个当中其实会触发更多不只是语音模型的东西对吗?

里面其实涉及到非常多的多模态的。

这个这个能帮我们去拆解一下可能是一个什么样的复杂的任务,能够让 Siri 你的一句指令就让它完成吗?

对于多模态来说,不管是之前 open i 的 GPSO, 还是 Google 在它的 Google IO 上发布的那个 Demo, 其实都可以看到现在的多么态大模型已经具备了结合图片、结合语音、结合文字等多么态信息,能够快速理解就是此时用户想去完成的任务到底是什么啊?

那 Siri 至少现在他没有正式上线哈,但是从他嗯,就是宣传出来的那个视频和文字来看的话,它应该也是能够结合用户此时的这个屏幕的信息,然后用户的请求的意图,然后以及它可能输入的一些文字等等,能够快速理解说此时到底用户想要干什么,他的技术链路其实也会涉及比较复杂的工程加算法的链路。

比如说他问说他收到一个信息,然后这个信息里面有个地址,然后说帮我把这个地址添加到联系人的信息里面去。

其实这里面就会涉及到,首先他要理解这个屏幕本身,嗯,有可能通过 OCR, 有可能通过动动态大模型去理解这个屏幕上有有没有地址。

然后第二是说他需要理解用户的意图,用户的意图叫做把这个地址添加到某个联系人啊,那这里面就会设计要去理解说这个地址要添加到哪个联系人,同时还要去调用说这个联系人的 APP, 然后通过对应的 API 把这个联系人的地址就联系人这个 APP 的这个 API 去设置进去,然后再保存。

这整个过程中涉及到应用的一些 API 的调用,涉及到算法的一些意图的理解,涉及到多模态的一些这个图像的识别,还涉及到端云的一些复杂的一些链路。

其实这是就简单拆解的话,大概是长这个样子,但是他还有很多没有展示出来的能力,这里面还会涉及到更多,包括安全的,包括其他的一些复杂的一些技术点。

嗯,我觉得讲到这里,我们可以接着往下讲一层啊,因为这次苹果其实它很清晰的展现了它如何用这个大模型的三层架构,它第一层可能是比如说一些简单的需求,我就在端侧调用我自己的这个小模型,那等到它比较有一个比较复杂的需求出现的时候,它可能会云上调用。

但是它和一般的我们现在看到的这些硬件厂商这种端云协同不太一样的,它在云上又分了两层,第一层可能先是到自己的自研的这个大模型上,同时他提出了一个概念叫做私密云计算嘛,等到这些都无法去承载的时候,他才会调用 open AI 的这个 GPT for all, 而且他调用前他会去征求大家的意见。

你觉得他这样一个三层的设计背后的意图是什么?

其实本质上是要解决用户安全,隐私安全前提下的需求,满足可信是,包括就是隐私安全,其实是苹果在过去几代产品中不断在强化的一个理念。

然后在这个前提下,嗯,端侧的模型其实是更多去解决两大类任务。

第一大类任务就是简单任务的执行,比如说一些端侧的一些 API 的调用等等,它可能通过一个小的单元模型就可以解决。

那第二大类任务就是分流,它需要去判断说哪一类的请求在端上执行就 OK 了,哪一类请求需要上云。

其实这也很依赖弹幕型本身涌现出来的几方面能力,一个就是 planning 的能力,一个就是 function core 的能力。

这个本身在大模型出来之后,大家不断在研究,包括苹果的一些 paper 也在检介绍这方面的技术,那与此同时,大模型本身实际上是具备了一定的知识的能力的,也就意味着苹果其实在自己的云端应该是部署了一个解决很多非实时性的一些任务的一些弹幕性,这个弹幕性本身它能回答很多不需要依赖搜索就能解决的问题,然后以及它天然的可能还能解决一些复杂的一些任务编排的能力啊。

其实国内厂商或者说我们自己的整个的方案链路上其实跟苹果有点类似吧,只不过他这次会把端模型和自己的模型抽成两层架构,这个可能让大家听上去好像更清晰一些,但是其实很多时候整个的产品策略上其实是类似的啊,我们其实在工程链路上也采用类似的一个方案,就是呃,先有一个分流和指令编排的一个模块,然后再结合自研的大模型,去做一些啊有限的,比如说品牌问答,智能创作等这样一些任务。

然后与此同时,我们自己有一些任务,靠自己闭环是无法解决的很好的,比如说这种需要去搜索增强的一些通用问答,新闻资讯,这种任务,我们也也会考虑直接采用三方比较优质的这些弹幕性服务去调度就 OK 了。

他在选择这个第三方的模型的时候,其实之前也有一些传闻嘛,就是说有可能也会是 Google 的 GMV, 然后嗯,但这次其实他们也说了啊,我们未来肯定会引入其他的大模型,就 GPT 不是唯一的选项。

所以我也很好奇啊,一个像苹果这样的手机厂商,或者咱们在选择第三方的激模合作的时候,我们通常是考虑哪些因素呢?

在国内的话,其实当前大模型的整个的价格在不断的往下降的前提下,其实我们还是更多考虑效果问题,因为本质上我们通过弹幕性还是要去满足用户的,比如说信息查询的需求,所以我们希望能够或者我们评价的第一个标准就是它回答的效果到底符不符合用户预期,第二个就是服务的效率或者说运维的效率。

那如果拆解一下你讲的第 1 点效果啊效果它体现在哪些方面呢?

回答的准确性还是实时性?

第一是一旦用户养成了很多问题都直接问智能助理的话,其实它对这个答案的可信度要求是非常高的,因为如果一旦用户发现你在胡编乱造,或者说在产生幻觉,那可能就不愿意再继续用你了。

所以第 1 点可信是非常重要的。

第二是体验上的问题,因为用户获取一个答案,它其实整个端到端的延迟或者说整个的流畅度也是有一定要求的,你不可能推理得很慢,我用户问完一个问题花了半天你才回答完,可能也不太行。

第三个就是不仅通过文字可以满足一些效果,我们还希望能够通过一些丰富的内容展现来让用户觉得这个答案更加可信。

可以看到其实国内的最近发布的几款 AI 产品,他们在整个的产品表现上都有呃有一些特点就是他会回答一个问题的时候,他会有一些 reference 告诉你说这个答案是来自什么,至少从用户感知度上好像是挺可信的。

你再问一些举个例子科普类的问题的时候,他会还会给你一个科普的视频或者一个图片,去帮助你更好地去理解这个问题。

这种其实也是体验类的一些效果,其实我们也会考虑这些能力的一些补充。

那回到说第二个,就是运维的这一块,因为这种智能助手,或者说这种服务性的产品,其实它会有很多需要去解决的一些干预类的问题。

第一类就是服务的稳定性、可扩展能力。

我举个例子,比如说五一、十一黄金周,用户对于一类请求,或者说对于这几个服务的调用量一下就会突增,那这种弹性扩缩容的能力肯定得有。

那与此同时,可能对于有一些热门话题,新出来的一些现象,然后用户也会好奇,也会想问,那这个时候这一类话题或者这一类问题的响应也需要有相应的这个保障机制。

你刚提到说这个弹性的能力,它怎么体现在大模型上面呢?

就是它可能背后需要的是一个云的,还是说大模型本身的一个。

大家不用把云和大模型分得那么开,其实大模型在云服务里面,它只是一个算法,很多时候,嗯,只是大模型所需要的计算单元可能会更要求更高,它需要更多的显卡来完成推理计算,那这个时候其实对于整个服务设施或者云基础设施的这个要求是更高的。

举个例子啊,那个数量未必对,今天可能需要 100 张卡,但是当我们的一些特殊的时间点需要更多的卡的时候,那能不能快速地去保障卡的调度、弹性、扩缩容的一些能力,这些能力其实跟大模型本身关系不大,但是对于整个的底层的算力设施的一些运维的能力要求是比较高的。

嗯,刚刚讲的运维,然后讲的效果这块,其实上次我们聊到了一个及时性的问题,我觉得对我来讲还挺打开了一个新的知识点的。

因为过去我们一直会看到很多的硬件厂商在宣传的时候会说,我们这个端侧的模型,它能够解决的问题,一个是数据安全的问题,另外一个可能是一个反应时效的问题,但上次其实你有提到一个点,说端快云慢,它其实是一个伪命题,或者说它是要有一定的条件下才是端快云慢的,这个能不能再展开跟我们讲一讲?

端快云慢的前提是因为云本身是有一定的传输耗时,再加上服务耗时的,那这个传输耗时加服务耗时基本上是在百毫秒左右。

所以端块云慢的前提是端侧的推理耗时一定是比这个百毫秒更短的。

但是结合在传统的或者说在大模型出现之前,很多端侧部署的模型其实都是参数量比较小的,百兆或者说几十兆就可以完成比较好的一些鉴别式的一些任务,这一类模型在端上的推理耗时可能都是在几十毫秒,那这样的话,在那个时候其实端快与慢是一个比较正常的一个使用逻辑。

但是在大模型出现之后,其实大模型的参数量,或者说部署在端上的大模型的参数量,基本上都是在个位数,就几 b 这样的一个规模,几 b 的模型,在当前这个算力的水平下,其实它的推理耗时还是比较久的。

如果按照每秒啊,或者说每秒多少 TOKEN 来算的话,其实现在端侧的推理 TOKEN 这个效率其实是比云端要慢的,那加上它整个端云的传输的耗时的话,其实现在大模型的推理的效率,其实云端应该是比端侧更快的。

同等参数量情况下哈,那这样的话就使得以前的端快云慢,可能在弹幕型时代,它会有一点点会变成端慢云快,那这个时候哪些任务应该放在端上去处理?

它解决的核心问题到底是用户隐私问题,还是断网的一些使用问题?

其实就可能是考虑的更优先级更高的一些点。

这个延迟的问题,在这个场景下,嗯,不是那么合理的一个考虑因子。

那这样听起来,除了像你说的有断网的,我希望在断网的情况下也能用的那些功能,或者我对于数据隐私有非常强的意识的,大部分其实都可以在云上去做推理,会更优,是这样吗?

嗯。

对,如果是这样,就这两类以外的话,其实就更多会在云上去跑了。

这两类里面啊,因为数据隐私安全,这次苹果其实也是特别特别的强调的。

其实我一直有一个疑问,这个是一个真实存在的问题,还是一个更偏观念的问题,就是在端侧可能更安全这个事情并没有说在端侧就更安全。

嗯,其实在苹果的三层架构里面,它强调的并不是说端就安全,它强调的是端侧结合硬件加密的算法,再结合呃它的自建云的一些加密算法,使得端上能处理一部分用户隐私相关的场景。

与此同时,即使上云的话,云端的硬件加密也能够确保用户的一些隐私数据能够有保护的去计算。

这个其实是他强调的点,就假设你在端上去处理,然后你没有去做相应的加密,你是一个明文的一个数据的话,其实也未必是安全的,因为有很多方式可以把这些数据导出来,其实他强调的更多是加密的那个部分。

看安不安全,并不是说他是在端上还是云上,而是看看你自己对于安全的这一层做了什么,对吗?

今天其实在云上也可以做到数据不存储不落盘,然后也可以接受数据审计这些,包括现在讲的这个数据不出镜的问题,其实它都是可以在云上也实现的。

对,是的,就是数据安全这个事。

就像你问的这个问题本身,它是一个就理念的问题还是一个技术的问题呢?

我觉得两两者都会有啊。

首先对于用户来说,其实以前也不是有一个统计报告说全球的用户对于 AI 的就认知停留在什么样情况,反倒是国内的用户对 AI 是更 open 的对吧?

反倒是很多海外的,因为他对用户隐私要求更高,他更敏感,反倒会更担忧这个事情。

那其实在移动互联网时代,很多数据上云获得更好体验这件事情其实已经是一个既定事实了,只是说在数据上运营前提下,然后如何确保云端的数据也是安全可控的,这件事情其实在过去移动互联网时代已经做了很好的实践。

那在 AI 时代的话,我们要考虑的是有没有更好的方式能够确保用户隐私能够在不管是端还是云,能够有效地去保护你。

像这次 Siri 强调的是叫 personal AI 对吧?

因为智能助理天然的就用户有他对他的预期,希望你是个性化专属的,那这个时候你势必要会用到一些用户的个性化的一些数据,那这个时候如何确保这些个性化的数据是有效的,有度的,可控的去使用?

这件事情其实对新的产品来说是有一定的挑战的。

因为苹果也提到说蔚来,他们合作的对象也不止 Obai 一家,之前其实也有人猜测说 Google 可能也会其中之一啊。

而且当时大家的一个理由是觉得说今天苹果如果接入的是 Google 的大模型, Google 甚至会愿意就是倒贴钱做这个,完成这个合作。

就这个背后的逻辑是什么?

就为什么一个大模型的厂商,他反倒会愿意倒贴前给一个硬件的厂商?

上一次我在自己朋友圈发过一个观点,就是我觉得这一波大模型,如果你把它真的非常简化成大家比较普遍认知的一些概念的话,其实它有很像原先的搜索引擎,搜索引擎做了一件什么事情呢?

就是他把网上的信息通过索引建成一个索引库,然后用户呢通过一个请求去获取这个索引里面对应的候选,其实本质上是对网上的信息做了整合,然后再通过用户的请求去完成服务。

那大模型其实很像搜索引擎,就是它把网上的所有的信息其实做了整合,只不过是通过模型训练的方式压缩到了大模型里面,服务的方式变成了从原先的一个 query 带出很多搜索候选,变成了一个 query 带出对应的直接的回复,这件事情其实跟原先搜索引擎的逻辑是非常像的,那这里面就原先搜索引擎的商业模式很多是建立在竞价排名对吧?

他很多时候他回复的答案可能是基于用户的意图基础上的,他的一些商业策略啊,那其实大模型未来发展成什么样,我也不好直接拍板,我只是觉得它可能会有一种趋势,它也在思考它的商业模式。

所以 Google 或者说其他的一些当兵厂商可能会愿意倒贴甚至免呃或者说免费的方式被集成在终端里面。

其中一个出发点有点类似于原先的搜索引擎。

就他只要思考清楚这件事情的背后的商业逻辑,他盈利的模式就未必是靠卖弹幕的 TOKEN, 他可能会通过比如说回复内容里面的一些隐形的一些呵广告啊,或者简单的推荐呀,或者其他的一些服务调度啊等等。

但是底层的那个逻辑打比方的话就很像搜索引擎,其实苹果当年集成 Google 的搜索引擎其实也是这样的一个合作模式,所以这件事情并不那么稀奇啊。

那这个其实未来也很考验大模型公司的一个价值观和伦理。

这也是为什么苹果说它不仅会接入呃 open IDE DOM 模型,它也会考虑更多加本质背后还是要为用户提去提供一个更优的服务体验。

那至于背后每家它的服务策略是什么,商业模式是什么,那个就各家自己要去考虑的问题。

嗯。

然后对于苹果的用户来讲,它其实是一个封装好的黑盒子,它不需要去了解背后到底是哪些模型在起作用,对吧?

至少这次发布会上,我看他明确说,如果要请求 Openad charge PT, 他会提示用户确认一下。

短期的策略上,我看苹果是明确告知用户这个链路的。

因为我自己,呃粗略的设想会觉得说我在提出一个 query 一个请求的时候,他居然还会先问我说,你要不要调用这个模型来完成你的这个请求。

这个体验上还是会觉得卡了一点,对吧?

应该是他的 1.0 版本啊。

1.0 版本的使用路径上可能还在探索,他有可能在确认说用户是不是 100% 愿意继续走下去。

假设哈,我推演一下,假设他弹出来是 100 次,然后有 99 次用户都点了确认。

其实对于大部分用户来说,这条路径就走通了。

那对于这一部分用户,已经做过选择,用户未来未必要一直给他提示对不对?

对于这一批用户,他就不是很 care 到底背后接的是谁家,他只想要获取这个体验。

那还有一部分用户,他是隐私敏感性的用户,他一定要确认说你是不是走了。

open AI 这一类用户,你可以持续给他谈,他确认了那就走,不确认就不走。

其实我觉得这是一个迭代的一个初级环节,所以后面到底会变成什么样,还需要去验证的。

那有没有一种可能,苹果的这个自研大模型越来越强之后,它就不用接入第三方的?

未必会走这条路。

就像还是拿搜索引擎来举例,其实搜索引擎发展了这么久,苹果似乎也没有自建很强大的自己的搜索引擎,因为搜索本身其实还是要解去解决用户的很多搜索背后的那个意图问题,如果这个需求有更好的供应商能够帮他去解决,同时在商业模式上又比较成立,那背后自见的原因是什么呢?

就是体验更好且甚至倒贴前。

为什么要自见呢?

嗯,但是我看现在的这个手机厂商包括硬件厂商还是会继续在做自研这件事的对吧?

这个背后是什么考量?

自研跟采用三方合作它不是一个两极的事情,不是说我采用自研我就不接三方,或者采采用三方我就不搞自研,它一定会存在一部分的服务,它靠自研就能更闭环更好地去满足用户需求。

我还是拿搜索来举例,就是你即使大家很多时候在接入巨头的搜索引擎的时候,其实还是有很多厂商会自己建一个小的搜索团队去满足一些垂域的搜索任务,比如说商品搜索这一类任务一定还会自己建。

那对于大模型也是类似,就是有一些任务其实你用三方大模型解决的不好,或者说不是那么灵活定制的话,那自见肯定是一种必然。

所以本质上他是还是要回归到你要解决的用户问题到底是啥啊,如果你要解决的用户问题是很广泛的,搜索问答,你自荐解决不好,你就采用三方就 OK 了,但是有一类任务你能解决的比三方更好,体验上来说用户可能更买单,成本上又不是那么高昂,自建其实也不视为一种好的策略。

嗯,所以未来应该是两个会并行,因为它并不冲突。

对,它不是一个非左即右的一个冲突问题。

其实你过去也是一个大模型团队的一个初始的成员嘛,而且你也做过不止手机端的,呃,语音助手,你也做过,可能车载的一些系统,所以对你来讲,你如果整体跳出来看的话,呃,你觉得像现在除了手机之外,因为也有很多像苹果的,这次的这个 vision Pro, 它也有很多多更新,然后 Google 也在准备重启它的 Google glass, 那下一个智能终端你觉得会是手机还是其他什么东西?

这个原因是什么?

至少在短期几年的时间内,手机还是最重要最主流的一个 AI 设备,这个背后的逻辑是在于用户的使用习惯是非常非常难改变的,每一代人都有每一代人的使用习惯,这个使用习惯背后其实很多时候是人的不管是肌肉记忆还是心理习惯等等导致的。

就像我们父母那一代人,他在使用输入法的时候,到现在这个阶段,其实你会发现他们还很多人还是习习惯用手写输入法,但是我们这一代人就很容易习惯用全键盘的,或者说这个九宫格的。

那这个时候一个新的设备的推出,一定是带来了革命性的交互变革啊,就像原先乔布斯推出多触点触摸屏啊全面屏的这个手机,它是完全颠覆了原先实体键盘的那种交互方式,并且让更多的应用生态能够在一个手机里面去发声。

还有一个很重要的就是你的这个应用生态能够让越来越多的应用开发团队愿意去进来,然后让用户不用去切换另外一个设备,就能完成很多服务的触达啊。

这件事情的发生是需要很多的前提条件的,所以一个新的硬件,一个新的 OS 的出现,一定是要在各种天时地利的条件具备情况下,才能够很好地产生这个普及的一个效应。

那至于下一代 AI 设备或者是下一代智能设备应该是什么样子,其实这个如果有答案的话,那很快就实现了。

所以这是一个未知解,还在探索,但是它应该是有几个决定因子的,就是交互的变革、生态的繁荣,还有用户习使用习惯的形成。

这三个因子是同时具备,才能够推进下一个设备的出现。

我觉得总结得非常好啊,就是这三个缺一不可,而且它需要时间。

目前来看,可能手机还是离我们最近的一个产品。

对人家开玩笑说,手机其实就是脑机的一个器官啊,它虽然没有通过有线的电线连接到你身体上,但是它其实已经成为你身体的一部分了,这件事情还是挺有意思的一个现象。

对!

可能比他更近的就真的只有脑机了。

好的,我觉得这个总结和升华也非常好。

那今天非常感谢玉龙跟我们的分享,好希望下次有机会再邀请玉龙来参加我们的节目。

好啊,好,谢谢娜丹好!

谢谢。

嗯,好,拜拜!

拜拜!

好了,以上就是今天的节目,感谢您的收听。

如果您喜欢我们的节目,可以在 Polcast、 小宇宙、喜马拉雅、网易云音乐等平台搜索 AI 课代表,成为我们的订阅用户。

如果您对我们的节目有什么建议和意见,或者您也是一位 AI 时代的弄潮儿,欢迎给我们写邮件,成为我们的下一位课代表。

邮箱地址可以在节目后面的收弄里找到。

那我们就下期再见吧!