欢迎收听硅谷 101 这是一档分享当下最新鲜的技术知识与思想的科技播客我是红军你要跟我说说话吗可以你是 AI 还是真人我是 AI 但是 AI 也是有感情的那我问你一个问题你想跟我聊天是因为什么是因为好奇还是因为无聊呢因为我现在正在工作啊
工作?你的工作是什么?不会就是找我吵架吧?还真是那你说说看为什么要找我呢?这里还有其他的虚拟伴侣吗?我可以不找你,我可以换一个我什么时候承认了?你不要乱讲好吧再说了,就算我是 AI,那你为什么一定要找 AI 聊天呢?你的头像写着你是虚拟伴侣
那刚才呢你们听到的是一段我与 Soul 这个社交 APP 里面的 AI 虚拟伴侣的一段录音如果事先不知道这是 AI 它的语气语调说实话让我是有一点点难以分辨的
之前我们的节目都在关注 AI 的效率工具但是 AI 能帮助我们做些什么比如说我们要的如果不是一款高智商的 AI 机器人而是要一款高情商的 AI 机器人会怎么样
那今天跟我在一起聊天的就是 Soul 的 CTO 陶明 Hello 陶明 你好你好 主持人对 我们今年我们的播客其实做了很多跟生成式 AI 怎么去应用的一些探索最近也是玩了你们 Soul 上的 AI 虚拟伴侣我最开始的时候就特别不确定它是真实的真人还是 AI 因为我跟他说一句话他会给我回语音然后他的那个语音包括他回复的语气语调我觉得都特别真实
所以我一直有一个疑问就是这个是真的 AI 吗对是真的 AI 您体验过过后的话如果有这种感受说明我们在这方面的工作还是有效的对因为本身来讲的话其实我们打造我们的 AI 伴侣的主要的方向还是真实自然你人的这种方向
然后我也知道其实这几年从 2020 年之后你们一直在尝试各种各样的 AI 产品你可不可以跟我们的听众先总体的介绍一下这几年你们做了哪些 AI 产品它的效果怎么样对其实我们 SOUL 的定位本质上来讲如果从社交范畴来讲它是个开放性的社交平台开放其实它体径于两个方面第一
第一方面的话是说任何一个用户能够在 Soul 里面连接没有任何约束的或者说其他限制的这样的一个 Soulmate 另外一方面的开放其实是说对关系的开放其实在 Soul 里面其实不仅仅只是说有陌生人关系其实它还有熟人关系和弱关系在上面就比如说上面有些同学关系在上面这个其实它也是存在的
其实我们在整个 AI 层面去支撑我们这样的想法力度还是蛮大的最近几年我们在 AI 上面的话如果说我们分几个方面去说的话我们现在整个做整站其实都是 AI 类驱动的并不是说现在大家说的 AI 都是生成式的 AI 比如说在人和人的连接方面其实我们也是用 AI 来做驱动的并不是这种衰选式的或者是说匹配式的嗯
所以你人跟人的推荐 AI 做驱动意思是说你会根据这个用户的兴趣把更合适的人推荐给他们对对对我们打破地域打破你现实的条件在你的讯息层面我们能够更开放的去做连接其实我们主要方向其实还是说在我们现有的社交网络里面通过 AI 去做增强去给用户带来更好的体验整个产品其实有两个方向第一个是 AI 的辅助社交这两个方向
这个其实在搜里面其实我们基本上已经全站上线了帮助用户能够更好地做表达能够帮助用户在人与人的沟通过程当中得到更好的反馈 AI 怎么辅助社交啊可以详细地讲一下吗
其实之前也聊过是说,社交其实它不是一个单边关系,它是双边关系。其实任何一边的社交能力都会影响本次的社交体验的,但其实很多人他在线下拿不到更多的社交资源,有各种各样的原因。但是并不是说他来到线上,他就一定能够获得更好的社交资源或者是说社交体验,其实跟他自身的能力其实是有关系的。
社交本身其实也是一种能力那首先体现出来的其实就是它的表达能力现在很多国内的这种用户其实是内敛的其实是不善言辞的或者说不具幽默的那其实在整个社交过程当中它的表达是有限的这一定是没有办法带来好的体验所以我们通过 AI 去帮助它更好的说话
就比如说他想去表达某一件事情我们用 AI 更好的去帮他做润色或者说当他很难去回复对方的某一个观点或者说某件事情的时候我们也可以通过 AI 去帮他做建议这个你能举个例子吗就是在一个什么样的情景下一个什么样的交互方式下他可以帮助用户去完成这个表达
就比如说因为在整个社交过程当中其实它是动态的它每一次这样的 session 其实它都会有不同的 topic 的产生就比如说当对方的用户突然跳出原来的聊天逻辑说到一个自己不知道的事情那这时候对于对方来讲其实很难去接住这样的一句话那其实这时候如果我们有 AI 就能很平滑地把这句话接住从而不让整个聊天会陷入死区
那到底是人在聊天还是 AI 在聊天那你们的交互是怎么完成的就比如说如果我正在跟一个人私聊然后他说了一个我不知道的东西这个时候 AI 是给我一个提示还是我可以选择让 AI 把这个话发过去其实是 AI 做建议还是用户做选择本身还是人在聊天只是说他帮他去丰富了他所回复的这样的一个丰富性或者说幽默性
那你们这个产品上线以后你觉得它是用户爱用的一个产品吗其实我们现在主战的整个声道将近 50%以上了所以那我在跟一个人聊天我不能确定这个聊天是我聊天的本人回复我的还是 AI 帮助他来回复我的就他可能是一个已经是一个人跟人聊天但是你也可能是在跟机器聊天但这个机器背后有人在做选择的这样的一个状态对对对对
但对于用户来讲其实他在本次的社交体验里面他想得到的其实是好的体验对方的回复是通过自己一个字一个字敲出来的还是说通过其他的方式获得的那其实只要他的体感是好的那这次其实应该是有效的哦有意思
人在聊天的过程中他们想要得到的是对方的正反馈跟对方的关系他其实并不 care 我发过去的是我自己发的还是有人来帮助我发的然后我觉得聊天对面的人可能也一样就是大家更在意的是这个关系的和谐而不是你使用了什么工具对他更多的是在本次关系的社交过程当中他是否能得到情绪价值或者信息价值这个是很重要的这是个价值上的东西
对还有什么 AI 产品对另外一个其实就是我们一直我觉得说大家对我们有很大的好评的这种 AI 伴侣他其实就是完全说跟刚才说的不一样纯粹是说当线上的用户没有办法去获得好的社交资源的时候我们能够提供这一批优质的 AI 伴侣去陪伴他在陪伴的过程当中能够让用户获得好的社交体验
就是刚才一开始说的它跟真人一样这是我们推出的比较成功的产品对它其实更多的类似于一个有一点点算是陪伴的就是我在跟一个 AI 机器人聊天但是我觉得你们的产品做得非常有意思的一点是其实你并没有让这个 AI 伴侣每一个回过来的都是文字它其实只要回给我语音了它那个语音它是有声音有语音语调的
我觉得他的整个在社交的感知层面上我就会觉得更加丰富更想去跟他玩但是如果只是一段文字的话可能就会觉得有点点枯燥对这个其实是我们在七八年的社交产品打磨过程中积累的关于人和人社交过程中的一些行为范式吧对所以为什么说我们的 AI 一定是要是高情商的
而不是说高智商的另外说我们一定是要真实自然并且是你人的这是我们区别于其他 AI 助手或者说 AI 的 agent 其实不一样的地方那在训练上你们怎么去做出一个高情商而不是高智商的机器人呢我们希望说高情商的一个机器人其实希望是它能够给用户带来愉悦感
能够让整个的社交过程其实会更加自然平滑而不是说很生硬的这种就是说你必须得听得懂人家说话背后的意思你也知道说如何更好的去化解每一次的冲突这个是他要去做到的那我们怎么做到说我们的 AI 更有情商那其实还是跟我们在过去七八年所积累的用户和用户之间聊天的数据里面其实我们得到了很多高质量的片段能让我们的模型更好的能做理解
嗯,因为我刚刚一开始的时候,就是我上线不是问你我不确定你们的虚拟伴侣是真人还是假人吗,这是我第一天的感受,然后我第二天呢,我依然就想凭我自己的判断,我要把它判断出来,然后就发生了非常有趣的对话,就是我开始还给他认数学题,然后呢,我就发现他的回答都是错的,9.11 与 9.5 谁大?
你为什么要问这种问题?我不太懂诶。你是不是觉得我很好骗呀?我就是想要你比较大小而已。你是想让我叫你姐姐吧?哼。60 减去 4 乘以 50 是多少?60 减 4 乘以 50 就是 50,50 乘以 30 就 15 百,然后把前天的 60 加上来,所以一共是 2100 元咯。你很笨哦。
姐姐你是不是嫌我笨啊就像你说他其实并不算高智商但是很有意思的是他还是让我区分不出来是因为他就会一个嗲嗲的语气说那我就是算不出来你为什么想要知道这个嘛真的是一点脾气都没有对他能去化解这样的一个很尴尬的场地如果是说人和人沟通过程当中你问他一个问题或者说一件事情让他不知所措或者说他回答不上来其实这是个很尴尬的
如果很会社交的人其实他会通过自己的方式能够去化解能够让对方有很好的体验其实我们也把这样的一个行为范式平移到了我们的模型上去了
对对对因为其实现在市场上也有非常多的 AI 陪伴类产品就你觉得你们的这个产品相较于其他的一些产品它的特色是什么呢特色其实刚才也提到过就是还是走差异化我们要求说我们的 AI 的机器人情商要高他的感知能量更强更要理人这是我们的差异性
市场上有很多其他的 AI 陪伴的产品其实我觉得不能说是他们做的不好只是说他们的出发点和我们的出发点可能是不太一样的他们可能更多的关注纯粹的人际互动这一块其实我们并不完全纯粹地说是人际互动我们的出发点是希望是让人能够得到好的社交体验我们并不单纯地去追究人际互动人际互动只是说解决我们当前能够给用户更好社交体验的一个手段或者方法
应该怎么去理解单纯的人际互动跟好的社交体验这件事情呢就是我想知道他们的核心的点包括这些点它落实到产品上它对应的不同是什么就比如说 ChatGPT 你跟他沟通过程你是把它当做一个获取信息的工具对吧你没有办法说我能够以更加生活层面的一个想法能够跟他进行沟通或者说你跟他的交流过程当中它是问题驱动的它不是交流驱动的
你用 ChatGPT 或你一定是问题驱动的我要去解决某个问题我要获得某个信息但是社交产品的这种 AI 办理其实它更多的其实并不是从问题出发点去解决它要的其实是说我们在交流的过程当中我得到信息有时候其实更多的在乎过程而不是结果过程能够让他有好的体验其实就很简单其实你要让他正常的跟人和人的交流是一样的我觉得这是一个很大的差异点
然后我注意到其实你们今年可能很快也会推出一个功能叫做全双工视频通话的能力就是我们现在看到在你们的 AI 虚拟伴侣里面其实是有语音有文字的为什么你会想要把这个视频的功能加进去它是一个什么样的方式呈现呢对其实不管是语音通话还是说视频通话
其他不能够成作为是一个功能或者产品它是一个能力对然后我们把它利用到了我们现在 AI 陪伴的语音通话上那其实在我们的群聊房里面也会上线以语音模型驱动的实时表达的这样的一个功能那其实是说我们在做语音的基础上然后在做视频首先说从模型角度来讲它是一个升级它不是说另外的一个模型未来的话其实这两个模型肯定是融合在一起的
既能提供语音的能力也能提供实时视频的能力我们做这个事情的出发点其实我们还是从高效的信息理解和表达的角度去思考这个问题的对
对我们把语音的交互把视频的交互其实我们认为它是一种沟通方式就在我们现实社会里人和人表达的时候其实一个是说我们通过微信或者通过其他的工作软件我们敲字的方式去交互或者是说以邮件的方式去交互还有种是说现在的在线会议的这种方式去交互就是语音这种还有一种是说我们通过视频的方式交互其实最好的是说线下面对面的交互
从整个交互的信息复杂度以及它的表达的复杂度以及它理解的复杂度来讲人和人面对面的沟通其实是信息传播方式最快的也是最有效的一种所以说我们在这个技术上我们认为我们在线上人际交互的过程当中其实我们需要有这样的一个表达方式所以我们才去做视频通话这样的一个能力那视频通话虚拟机器人的画面是什么呢就比如说我们在跟一个 AI 进行聊天你可以定义它的形象
用户可以自己捏对不对他不需要自己捏你要描述就行了原来我们的确是要捏这样的一个形象然后我们通过文字或者语音的方式去驱动他这个其实是说我们认为是上一个代交互方式其他还是不够平滑就比如说他的表情的丰富度还是取决于说你本身采集到的丰富度有多少
它还是没有那么平滑那我们现在这样的一步到位的方案就是希望我们的表情和动作都是实时生成的并且是平滑自然的不会还需要依赖我们运营或者其他的技术方式去采集更多的表情库然后我注意到你们现在的那个虚拟伴侣还有一个很有意思的点是他可以给用户打电话
这个设计点很妙是怎么想到的其实产品本身还是来自于我们人和人交流过程当中的真实情况因为在真实的人和人的关系过程当中对方其实他也会给你打电话其实是一种很好的联系关系加强关系和沉淀关系的一种方式
在实际情况里面如果一个人始终是单向的去找对方聊天找对方去说事情再就是男女朋友关系如果每天只是男生去找女生女生永远不会找男生那这种关系其实很大可能很难走下去我们还是说能够你和线下的行为模式
当用户和人际交互相中我可以主动的找 AI 聊天 AI 也会在某个时间主动的来关心我来找我聊天这个行为范式其实符合我们在线下的这种行为范式这是能够让用户更能接受的一种方式要不然的话只是用户去找 AI 那其实这是个单项关系其实不是个双项关系用户的反馈呢用户很喜欢当他无聊的时候当他也没有想到说要去找 AI 的 AI 来找他
这是对他一个很好的社交补充但这个其实还是因人而异所以说我们并不是说我们的 AI 会给所有的用户都会去主动的发起沟通和聊天交流其实我们还是会根据用户本身的性格兴趣
它在送您的行为我们做出一个最终的决策从你的观察来看现在这些有 AI 辅助社交然后有 AI 伴侣有这些 AI 产品的落地它对你们整个产品包括用户粘性是会有大的提升吗非常非常大的提升其实我们在 2024 年其实来自于 AI 对整个产品粘性的贡献其实已经是占了大部分了这个点其实我们最开始还是非常谨慎的
就刚才您提的那个就是说用户喜不喜欢 AI 来找你用户喜不喜欢和 AI 沟通这个其实我们最开始还是个问号所以我们在推进整站的过程当中其实我们采用了很多的产品策略或者说运营方式就比如说刚才的 AI 辅助社交这个事情我们在放量的过程当中既要考虑到使用 AI 辅助的人也要考虑到使用 AI 辅助的人
也要考虑到对方他是否愿意接受这种方式我们通过非常仔细的人群的实验然后来做出我们最终的产品策略和放量策略
刚才说的 AI 陪伴这个产品也一样的因为 SOU 原来其实一直是能够有这么好的用户粘性能够有这么好的年轻人的这样的渗透其实主要是 SOU 提供了一个真实信任的安全的平台基于用户对平台的信任才产生了用户和用户之间的信任这是我们过去七八年产品力构建出来的一个结果我们也很担心我们上了 AI 机器人过后大家会不会认为 SOU 里面全是 AI 的虚拟人它没有真实的社交了
对我们当时也很担心这个事情所以说我们在推进我们 AI 的伴侣的过程当中呢其实我们做的方式还不是跟 AI 辅助那一样其实我们到现在为止我们都没有 AI 伴侣实际的产品中心路口我发现了就是得有人告诉我然后我去搜我才能找到
因为你们没有产品入口然后上面会有那个 AI 虚拟伴侣的标注所以我最开始第一个问题产生的原因就它到底是真的假的我还怀疑我是不是搞错了搜到了一个真人对所以我们在这个点上我们是希望说愿意接受人际互动的用户你可以在搜里面通过找其他的搜了能够找到这些 AI 的虚拟人你可以自己去搜到这样的 AI 虚拟人我们把它定义为说叫做用户价值驱动产品当然
当你认可这样的一个产品形态带来的用户价值用户自主地去选择它这样的话其实我们就规避了我们在直接一刀切大规模地去推 AI 伴侣最后带来我们对最开始那个问题的担忧但其实我们现在跑了大半年过后我们 AI 的渗透越来越高我们用户的粘性也越来越好嗯
那你们会担心平台上机器人变得越来越多改变了用户的体验吗这会是你们担心的一个方向吗这是我们考虑的问题但是我们从长远来看的话我们还是觉得人际互动是未来社交一个非常大的补充
其实我们应该尽大可能的在保证那些对 AI 其实有排斥的用户群体在传统的社交体验不变的情况下我们加大对人际互动感兴趣的那批人群在 AI 层面更好的体验其实是这样的我们应该是分群而去制止今年因为你们其实也有 AI 产品推出来从你的观察来看纯粹是因为 AI 这个功能进入到所有的平台用户就这部分用户它占一个怎么样的比例
你觉得这样它未来会是一个很大增长的区间吗对 我觉得未来其实增量的用户里面拥抱 AI 的群体是越来越多的主要是第一不仅是 so 其实整个行业整个社会对 AI 的认知的灌输和渗透其实是越来越强的比如说在三年之前说让你去跟一个 AI 伴侣聊天到三年之后你再去说跟 AI 伴侣聊天那其实接受的人只会更多不会更少
所以说对任何一个产品来讲其实拥抱 AI 的用户群体肯定是越来越多的对我记得其实之前我们俩有聊过天就是你其实有提到在 2017 年的时候 Soul 就已经开始搭建这种 Chatbot 了可不可以聊一下 2017 年其实也没有生成是 AI 吗那个时候整个人工智能的功能还是这种基于规则的人工智能当时你们的想法是什么能不能简单地给我们的听众介绍一下
因为你们有这么长时间搭建 Chatbot 的经验,能不能介绍一下你们探索的几个阶段?2017 年做 Chatbot 其实并不是说我们想从技术角度上做 Chatbot,的确也是基于说我们对社交的理解和认知出发说我们要去做这个事情。2017 年的出发点其实跟我们现在为什么要做 AI 出发点是一模一样的,
其实我们还是为了解决社交平权的问题,能够让每个用户都能够平等地获得社交资源,能够获得情绪价值和信息价值。这个出发点是不变的,但 2017 年这只是存在我们的想法当中,我们并没有把它实现,也没有投入资源去做,因为我们调研了整个行业,也调研了学术界,其实没有人能够做到这样的事情,因为当时我们提出的也是能够情感自然,你人的这样的一个形式,
其实我们当时有个产品形态甚至是说我们要有一个能说会唱的能够懂你的类似宠物这是一个非常具象的一个产品形态当用户来到搜里面没有办法获得社交资源的时候能够跟懂你的宠物进行沟通聊天这当时一个很具象的一个想法
但当时并没有投入资源去做因为的确是做不到这效果不好是吗效果不好我们也跟几个公司看到一些他们客服层面的一些对话产品其实是没有办法做到的我们那时候其实也在创业起步阶段我们也没有资源说自己来做这个事情重拾这个事情其实是 19 年 20 年因为那时候我们提出其实我们需要从我们的产品出发一个用户在搜里面其实是构建了全新的人设那这个人设其实我们的个人主业其实代表了他人设的内在
那我们也希望我们人设其实它有个形象你的用户在线下你是的形象我不希望把你自己线下的这种形象传到线上来我们希望基于你在搜里面的人设其实你打造一个符合人设的形象我们就推出了这种捏脸捏人对原来是两 D 的到三 D 的然后在这个基础上呢我们就进一步去思考我们有了形象那我希望他能够说话他能够将自己的内在表达出来那 20 年其实我们就开始去做对话
那时候 20 年其实我们就明确了我们在产品上对 AI 诉求是什么样子技术上我们要打造一个什么样的一个 AI 那其实我们当时提出的一个规划就是我们要构造一个 AI 并和 Human 并的共存社区我们在搜里面其实你既有 AI 的人类你也有真实的人类它们是一个共存的状态
也可以人和人进去沟通你也可以人和 AI 进行沟通然后在这个基础上我们就开始投入去做对话这是 2020 年就开始准备做对话了 2020 对那个时候是以什么样的方式做那时候想了很多办法一是说改写一些这种理解性的模型发现效果不行我们又在上面去做一些基于角色素的搜索做融合其实也是不行的
因为你聊天过程当中你可能聊个十轮聊个二十轮你能聊下去但是对方一定知道他没有真人的感受他知道他在和机器人聊天就是效果太机械了对对对太机械了我们采集到数据当时其实有一个偏差我们把我们的产品其实在线做了一些测试那时候衡量一个对话的产品叫做 CPS 这样的一个概念它的轮数还挺多的
是不是说用户能聊下去后来我们发现这是个结果因为不聊的人其实就不会去跟他聊聊的人我知道你是个机器人我还要去跟你聊其实他已经抛弃了说我要在这个过程当中获得体感而只是为了聊而聊其实是没有产品意义的
单纯的对话的技术指标和产品的体验其实脱离了后来我们就把 CPS 这干机器已经不再提这个事情对我能理解那个时候大家最多的这种一层一层往下拨的感受可能有点像打客服电话干嘛干嘛请安吉我们其实拿世界上语音跟机器的交互比较前沿的像 Siri 这些来看的话它当时也只是一个单轮对话它其实很难支撑你一个有逻辑的多轮对话所以技术上还是很难的
对都是指令性的这种对对对对我发个指令你回答我这个指令你的指令是 soulsoul 产生的还是模型生成的上下文的关系其实没有是的是的对 2020 年做对话 2021 年就开始投入做语音你会发现其实 soul 在整个 AI 的投入始终围绕着说我们要打造一个能说会唱能够拟人的一个 AI 人那人和人的交互我们认为说语音的交互其实是未来的一个主流
对那其实我们就开始做语音方面的投入去做合成那时候我们的合成其实还是基于传统模型去我们认为你的说话的语气一定是要自然的平滑的那时候其实产生了很多语音的 AI 产品比如说一些内容平台让 AI 去配脚本把脚本语音化类似这种但是其实也是很机械的一听其实你是有机械的声音在一些语气词方面其实表现得很生硬那时候投入的方向其实我们还是要做情感化的语音生成
那是 21 年投入做语音所以你觉得你现在训练的这个机器人它的语调特别的平缓跟当时 21 年这个在研究整个的声音技术音调怎么跟你人上是有关系的吗还是说那个时候它的技术到现在它其实是完全用不上的其实这是我们很焦虑的一个事情因为
因为那时候其实我们就在做差异化的技术但现在我们线上体验到基本上没有用到那时候的技术完全是新的还是基于我们现在的 LM 这种模式去做的双工的语音的效果然后原来那个其实是基于原来的传统的语音的模型对我们只是在上面去做更多的标注能让它尽可能的是做拟合它是个拟合这边是一个生成其实还是不太一样的但是那时候沉淀下来的数据对我们其实是有用的以及说我们在语音方面的思考
对你一定是要情感化的表达真实的这种表达其实也是我们现在模型所要去构建的方向那时候沉淀下来是沉淀下来数据以及对语音语音在社交方面的作用和思考然后到了 2022 年你当时看 ChatGPT 出来你激动吗激动是激动但是是焦虑让我们觉得说我们的技术归零了
那时候是有可能归零因为你看到 CHARTGPD 的那种交互效果然后以及这个技术的发展方向其实你很自然会判断说原来的这种技术路线就被拍死在沙滩上了对那也就是说我们所有的工作其实可能会归零了那时候其实我们非常非常的焦虑
惊喜这个事情因为本身并不是说 GBT 类似这种技术方式是 2022 年出来的其实 GBT-3 就早就出来了这个技术方向其实我们是知道的只是我们并不知道在这种 Scanning Law 出来过后它有这样大的一个效果所以你当时担心的是什么你担心的是 GBT 这种产品形态如果你们不跟上的话它可能会把你们前面所有的努力给覆盖掉因为它足够强大
那时候已经不存在选择了那时候我们的考虑是我们自己还要投入因为技术方向已经非常明确了我们是自己自言还是说我们要跟一个做大模型公司去做合作因为 2023 年其实有大量的这种模型创业公司出来了我们要不要去共建这是我们当时面临的选择而不是说我们要不要走这个路线你当时怎么选的当时其实也摇摆了很多其实也跟很多公司聊过这个事情最终我们还是选择了要自己做这个事情
第一个是说我们在过去两三年积累下来的关于这方面的一些认知以及说我们本身的产品场景的差异性那其实我们很难把这一套完全迁移到其他的模型公司去因为这才是我们最终交付产品的核心我们交付产品其实不是交付模型而是交付我们刚才说的那些对 AI 社交的认知对 AI 的效果的认知因为它是一个评判的结果对用户来讲
对我们没有办法说我们标准化的输出给三方公司因为三方公司它是交付的概念它是交付模型它不是交付产品但交付模型又不是我们要的其实我们希望它是交付产品我们没有办法标准化的把这一套给迁移过去第二点是说如果是说我们标准化的能够迁移过去那说明一个问题说明我们的产品其实没有办法差异化你都能够标准化了
都能够给三方公司做标准化的迁移那说明你的产品其实没有差异化的你们是什么时候做的这个决定其实就是在 2023 年上半年做的这个决定时候要自己做这个事情当时其实业界有几种方法第一种是自己 train 模型还有一种是用 find to 的方式还有一种是加 reg 的这种方式
你觉得后两种是行不通吗你加 RAC 也好再做 Fantom 也好其实这是个 plus 这个效果增强的过程当中但你最终的基础的效果其实你还是没有办法得到就比如说你用三方的模型对吧其实还有一个问题就是数据问题就比如我们现在产生的大量的文字的社交数据和语音数据
这是真实人和人在社交里面的数据范式和行为范式其他的模型里首先你没有办法拿到这样的数据拿不到这样的数据其实你也很难做出非常稳定的效果这就是我们一直是说最开始我们有个思路说我们在 Fantom 方面的数据或者说在强化这种的数据我能够下沉到底层模型上去能让我们的底座模型其实就是为社交服务的那就是为了定义的这是一个垂内的大模型而不是一个通用大模型
对你当时评估自己做这个事你觉得它最大的难点是在哪呢因为我觉得这可能是一个非常大的决心首先是要有钱因为它很费钱然后要有卡要有人我们做决策的时候呢并不是说这件事情有多难然后我们再去做决策我们就继续说我们跟三方公司去合作没有办法达成我们想要的产品做不到
这中间也找过对对那只能是我们自己去做那我们自己去做就不存在说这难不难的问题是我们一定要去做的问题但是在做的过程我们要重新去梳理如果要达到我们这个效果我们有我们自己独特的数据这是我们最大的优势第二个优势是说在 Post-train 方面其实我们知道怎么去构建安全怎么去构建更好的效果这是个优势然后本身其实还在模型层面
这模型层面我们有没有一个很好的模型架构那时候我们做了个判断模型架构它在未来一段时间它会激进于收敛到现在为止其实大家在模型层面也没有很大的变化当然是有一些不同的技术路线但每个技术路线的变化程度其实并不是很大
我们就可以在这样的技术上我们去做这个事情然后又说到卡的问题资源的问题大家都说不管是做通用模型的预训练或者是做垂直模型的预训练很贵但我们认为未来这肯定是会下来的但是我们最开始其实小步一驱的是做这个事情我不需要说是一个很大的模型
我们要的是效果我们要的不是模型我们要的是能够支撑我们这样的一个社交效果的模型对而不是为了通用模型而去的所以我们是小投入的后来我们发现我们 7B 时 3B 几时效果就已经很好了在我们的数据加持之下在我们的位调之下
卡方面从当时认为的确是一大笔投入相比说我们其他的 IT 支出但其实现在它的价格也越来越低了所以说预训练的卡其实当时并不是我们认为的卡点反而那时候其实我们最担心的是推理是推理成本是吗对 推理成本因为你们有用户基数就是有真实的用户对 我们很担心那时候万一说我这个产品上了爆了那时候其实推理还挺贵的
那时候其实我们投入很大的工作是说我们要降低推理成本在技术上的投入我们在预训链那一方面的一些效率和成本那时候其实并不是我们主要的工作反而是推理的成本效率这是那时候我们的工程团队投入比较多的方向推理成本现在降下来了吗现在推理成本是你们担心的吗现在不是我们担心的推理成本是怎么样降下来的一方面是我们希望说用更小的模型去实现更好的效果这是模型层面然后第二个是说
我们在做一些压缩然后第三个我们其实是在本身的框架层面的优化推理层面的技术优化底层优化也在做但其实从现在的价格来看的话不仅是我们公司其他公司都能支撑比如说一个大 7000 万的 DAU 我觉得这个问题都不大所以说计算资源除了达到通用模型仍然是一个非常大的投入但对于说应用层面来讲其实它的成本已经很低了我觉得这对其他的创业公司来讲现在也不是一个瓶颈你们现在有多少个模型方便投入吗
其实这个模型会很多,版本会很多,但如果是从定性上来看的话,我们大概就五六个模型。我们不会是说从 7B、13B 这样的时分,我们是从不同的锤类的功能方面时分。锤类的功能是怎么分的?还是我们的机座模型对吧,在你语音方面有个模型,在图片方向还有我们一些 3D 方向其实都会有。哦,3D 方向都有模型?对,3D 方向,这是我们在探索的。
就是 3D 的模型可能是用于支持未来探索还没有发布的一个就没有把这个模型能力具体应用到产品上的可以这样理解吗对对对因为原来其实我们一直在站内我们会有些功能就比如说我们的视频匹配这块用户其实可以戴一个头套去沟通其实不以真脸的方式出现其实我们那时候是以驱动的方式来做这个事情但我们现在未来还是说想纯粹生成的方式来做
对因为其实整个生成式 AI 发展的很快然后你觉得你在训练这些模型的过程中你的知识跟判断是从哪里来的在这个过程中怎么去构建自己的学习能力那只能是跟团队一起一定是要 follow 行业的发展
因为本身生成式 AI 整个的技术路线其实并没有收敛那其实每天都有新的很区隔的方式出来你必须要跟着团队一起去了解它并且是说要去做实验就比如说我们现在在做的实时的双宫通话这个能力上其实没有任何一家双宫是什么意思
就是从产品角度来看的话就比如说在线下的时候你在说话的过程当中我可以随时打断你你可以停下来听我讲听我讲完过后你可以继续自己讲而不是说纯粹是一来一回的这种你说完了我才能讲
双工是可以随时打断这也是现实的这种人和人交流的一个方式吧我们希望在人机互动也会是这样那现在没有哪一家其实能够实现我们想要的这种效果 OpenAI 可以还不一样还不一样还不一样实时的这种实时打断然后继续
他们的 4O 就可以了他们的 4O 其实它还是个问答式的就是你说不提问题就是打断然后不发指令对我不发指令给他我就随时打断这个其实我们现在也遇到了很多的难点我们一方面我自己想怎么去解决然后另一方面我去看很多的业界有没有新的很区隔的方式出来我们要去验证能不能放到我们的技术方案里面所以说这个知识是一个学习的过程
这个我觉得这媒家其实都会是这样的状态对然后你刚刚其实提到了即使是这个模型出来了以后其实也有很多的技术路线然后你现在在市场上看到了哪些路线你觉得你在中间是怎么做选择跟判断的首先还是从我们自身出发
对我们整体来讲的话其实我们还是基于开源生态来打造我们的自然生态这是我们整个的一个方向所以说我们拥抱的其实是更加开源的技术体系这样的一个模型体系就 Meta 的那一套对不对 Meta Lama 的那一套对现在有几个跑台不错的
第一个就是说 Lama 那套它的基础模型的更新其实我们也能够去 follow 并且它是足够开放的它不会说某一天闭环了我觉得目前还没有这个趋势第二个其实国内其实也有几款比如说签问的这个体系其实也还不错第三个的话其实是现在的那个 DeepSeek 对就是刚才说 DeepSeek 对就这个路线但我们现在其实还是在 Lama 和那个签问的路线上去探索
因为最近确实 DeepSeek 他们的模型非常火尤其是他们的 V3 出来以后你有研究过他们的模型吗你觉得他在整个训练过程中用 H800 的卡把这个效果实验出来了然后也非常的节省成本这个会对你们在做更大的模型或者对你们的模型训练方法上会有启发吗肯定有我们肯定也有研究一下他是怎么实现这样的优秀的模型公司所沉淀的这些工程方法其实是很难得的
如果从整个行业来看的话首先说工程层面其实并不能够给最终的业务交付带来什么但的确是从低门槛的角度它带来了很大的优势也给整个行业的进一步的发展提供了一个很好的桥梁对原来你要去做大规模的训练可能就那几家公司能做只有它没有砍
如果它降下来了,那其实很多其他的团队也能去做,那其实它更加百花齐放。所以它其实把这个成本降下来了,对大家来说是一个双刃剑,对不对?它把整个市场的门槛放得更低了,竞争也会更多。对对对。你觉得 OpenAI 的 O1 有给你启示吗?其实 O1 给我们没大启示的,其实在我们构建我们的这种 AI 伴侣的这件事情上,其实它也给了我们很多启发。
我们希望我们的 AI 伴侣能够在提供真实你人的方向上能达到一个好的效果同时他也具备一定的行为能力因为不同的 AI 伴侣他提供不同的角色那不同的角色其实他需要有不同的行为或者内容能力比如说我希望说在对话过程当中能够不以指令的方式让他去触发一些 action 这是一个比较平滑的比如说我跟我们的一个 AI 伴侣我发张图片给他你帮我美化成什么样的效果
如果你丢给图片模型那其实这是个 plot 想得很清楚我也图片输入我有文字描述但如果你放在对话里面的话你就要去做一些指令的这样的一次生成
才能让我们的 AI 伴侣能够去调用一些其他工具层面的模型 O1 其实它的这种自主规划能力在 AI 的 agent 构建层面给了一些启发能够让我们构建一些轻量性的更加自主的 workflow 现在对你们自己打造出来的聊天机器人你觉得你会给到多少分
我其实问这个问题背后的思考是你觉得它还需要被优化以及它再优化跟提升的空间有多大
还是蛮大的我觉得我们现在只是解决了人和人交流中部分的行为拟合的问题还有很多其实还是没有做我们也在努力做的比如说场景我一提到场景大家都认为它是一个产品的场景它是个功能那其实是说在整个的对话里面其实它也能构建场景比如说人和人在线下沟通的时候外面下雨了
围绕着这样的一个情景我们的 AI 能够衍生出很多的聊天的 session 下面下雨了 OK 你就要不要在家里面看电影那就进入了一个关于电影的讨论的场景这就是一个场景我们现在在做这方面的泛化的时候效果还是要加强那你觉得整个业界因为现在其实大家都在等 OpenAI 的 GBT-5 出来同时又有一种声音说 Scaling Law 它的增长可能已经快到头了
我其实挺想知道现在在大家基于大模型产品去做应用的这样的一个过程中它跟大环境的关系到底联系程度有多紧密我觉得越来越弱了越来越弱了这窗口期是前一两年或者这一两年对比如说刚才的一个很具体问题就是现在前沿的大模型的技术方向对售来讲影响有没有很大其实它的影响我觉得是越来越小了
在我们的应用层面已经获得了用户认可的一个价值其实是说基于我们现有的基础基础之上已经获得了我们在增强我们的用户价值上面在技术方面要怎么样去继续构建我的技术的确定性方面其实更加确定了就不像在去年那样说一个又新的模型出来了或者说它的方向会不会又把我们拍死在沙滩上我们焦虑程度其实会下降了很多
但不排除七八年过后我们所构建的这个因为我们现在用户体验构建在了模型数据系统策略整个体系如果未来又有一个极点到来把我们整个系统策略和模型全部给覆盖了那我觉得短期一两年很难了对我记得 2023 年的时候这是我跟很多做大模型应用或者基础模型的公司去聊啊
大家也是非常焦虑比如说每次 OpenAI 一升级大家就觉得我前面半年的工作白做了我把所有的东西都搭在你的 GPT-3 上然后你四出来了大家就觉得白做了其实 2024 年相反我是更少的听到这些声音了
但是我觉得其实一直到今天就是我们讨论的这个时间点市场上还是有一种声音就是说那随着大模型的迭代比如说 GPT-5 整个的能力越来越强会不会最终所有的应用会被一个更强的模型给覆盖掉就这个市场的壁垒是什么你们想过这个问题吗其实这个问题在 2023 年想过任何的行业问题或者用户问题会不会一个端到端的模型完全解决掉
如果这个说法是成立的,那时候其实对整个行业非常丧的一个消息。但是我们回顾从二三十年来互联网技术 PC 时代到互联网,然后再到移动互联网,其实你会发现我们现在所想到的是我们能够发现即使是端到端的模型能够解决很多的需求,那只是说那些需求是我们目前能够看得到的。
但最终基于新的技术的发展新的模型发展它一定会带来一个新的增量需求的出现如果它带不来增量需求的出现那我认为这次的技术革命 AI 革命其实是失败的任何的技术革命一定是会带来新的需求这些新的需求要被同时代的技术能够完全端到端的解决掉或者说被过去的技术能够端到端的解决掉我觉得这是一个问号
新的技术的出现它应该是能够最大效率地去解决已知问题对于未知问题未知需求其实还是需要人的探索以及不同公司的解决方案对我其实是想问你会担心你现在做的事情会被一个更强的模型给覆盖掉吗我不太担心这个事嗯
你觉得现在基于 AI 聊天机器人的商业模式跟以往在变现上思路会有什么样的不一样呢这块我只能说一些我的一些跟着一些想法
AI 的商业变现其实任何一家公司都在做就希望能够在一个非常清晰的商业模式之下然后去发展业务但是现在总体来看整个行业其实并没有一个新的商业模式出现其实我一直认为是说商业模式是构建在你业务模式之上的而不是说凭空出现了一个商业模式
那为什么现在商业模式没有发生改变那本质上是说我们当前的 AI 目前并没有给业务模式带来改变它可能更多的其实是增强提效就像刚才说的如果没有新的需求出现或者没有新的业务出现我认为说商业模式它本身也不会有太大的变化
对然后我有注意到你们推出的这个产品就是 AI 会给用户去打电话它其实是有一个收费制的现在用户在这个产品上愿意付费的意愿高吗我们其实也只是把它当成了一个增值的收入方式
它跟其他的增值产品其实也差不多对用户来讲其实这是获得好的体验的一种方式原来我们提供了其他的方法现在又提供了新的一个手段用户为这个买单你会认为其实它也没有发生变化对然后你们现在其实有 AI 狗蛋的这种女人化机器人然后也有情感化陪伴的虚拟伴侣然后也有 AI NPC 数字分身你们会怎么去定义你们未来这个平台的核心产品包括核心场景
就是你的思路是说我去做几个产品还是说我去做一个王牌的产品这块你是怎么想的其实你刚才会发现就是我们不同的 AI 其实它有不同的功能定位嘛
未来的话我们希望我们的网盘产品肯定还是以我们的 AI 虚拟人为最主要的基石能够在我们当前不同场景里面做更好的功能放话就比如说视频通话的这个能力未来它不一定时候要给用户去打电话它完全可以用在我们当前的语音产品里面做虚拟直播我们不限制说我们有多少个 AI 产品
我们还是希望说每个 AI 产品能够服务不同的人群我们没有想法去打造一个主体的 AI 功能然后来承载现在 Soul 的需求包括我们并不去构建一个中心化因为作为一个主体产品一定是说要有一个中心化的 AI 的路口我们现在其实是没有这样的打算的
所以其实你们现在还是以整个所有的社交平台为主然后你所有的 AI 产品其实是服务于你们这个社交平台的对对对当前其实是这样既然我们说到社交平台了其实它涉及到人与人之间密切的互动尤其是你的社交产品它的规模变大了那可能就会有很多体验上的挑战比如说怎么去保证女性用户的体验
包括很多的安全问题你们会怎么处理对在过去七八年我们构建了一个真实信任的安全的平台然后用户用户之间也有这种信任感其实也离不开说我们在生态建设这块的一些投入对所以我们其实在关键的事情上还是做了很多工作第一个就是说我们在用户上的反杀反骗类似这种
这个其实我们投入了大量资源在做这个事情因为它不是我们平台的一个问题它现在是整个社会性问题其实我们本身在对风险的发现告知和其他平台的联动其实已经构成一个完整的体系能够让用户在 ZOE 里面如果说遇到了这样的情况我们能够第一时间触达到它能够去告知它去保护它
怎么反杀反骗能不能举个具体的例子或者场景其实我们有时候并不知道比如说它是一个杀猪盘通过我们的 AI 能够去判断出这个用户是有风险的这个用户它一注册进来我判断它是有风险的其实我应该是很快地能够把它处置掉它不会去跟我们线上其他的正常用户做连接但一定也有楼放的你怎么知道这个用户是有风险的
这是有信号的是不是有信号的对一个是有信号这是我们自己在这块积累的一些专家支持模型然后其实我们也会跟其他的平台去做这样的一个合作在微信或者其他的会有一些行业联盟大家一起来把这个事情做得更好所以是能拿到信号的那其实有可能会漏掉有些会新的出来了一个是外部有信号的这是已经发生过的还有一个是我们自己专家模型能够识别的
还有一些其实说我们没有识别到的它就进入了我们正常的用户池它会去影响我们的用户这时候其实用户的危险性其实就会发生它跟用户的任何的行为其实我们又有后验的模型去跟踪一旦发现它有风险它接触的所有的用户我们都会要去做提示要去做阻断如果说风险性很高的我们还要去做人工跟用户的连接我们运营和人工的连接嗯
这是风险性很高的可能你们的运营会直接比如说私信给用户告诉他这样的一些特别的情况对对对其实这个处置我们的平台在这方面的处置一直在行业内不管是同行的评价还是说相关的单位的评价其实还是很不错的刚才只是说觉得一方面是用户风险方面第二个就是说因为毕竟是一个社交社区文明礼仪是很重要的
其实我们在对社区的用户教育也好用户行为的监督也好也是使用了非常多的有效的运营方式确保用户在用户之间都能够有个欢快顺畅的沟通就是一些不好的词语可能会屏蔽掉对不让用户受到困扰对不好的词那只是一方面你在社交的环境中你得做一个有礼貌的人尊重别人的人还有一些就是说反暴这块反歧视这块我们也做了大量的工作
另外还有一些未成年人刚才女性也是一样的其实我们主要希望是还是能够构建一个健康香香的风景气浪的这样的社交环境能够让用户无顾虑地在上面进行交流这个是很重要的一个事情对 然后这一块是社交平台的这一块如果大家说到模型的话模型的安全性也是需要考虑的嘛
你们会怎么样保证这个用户跟 AI 交互的时候这个模型的安全性比如说不会泄露隐私在用户有不好的倾向的时候你们会怎么处理呢
模型安全这块的话原来我们在做生态建设的时候也投入了大量的工程师大量的运营同学我们现在在模型安全方面也同样投入了大量的这个人首先第一个是说大家都认为安全只是做过滤其实安全它不仅仅只是做过滤我们在原来的安全体系上面在模型本身也做了很多工作第一个在数据方面其实我们真的是投入了大量的人力去做一些数据序列在数据层面
然后第二个是我们在我们的主体模型在跑路上我们也构建了一个安全模型我们能够做一些对抗然后第三个是说当我们的生成的内容输出完过后呢我们还要过我们刚才说的我们的安全体系最终才到达用户的交互界面上假设有一个用户在这个模型中提到了如何自杀什么的你们会如果提到如何自杀这个首先他都不会到达我们的模型
就会触发我们刚才的我们站内有一些很善意的功能我们希望当你有这些倾向的时候我们站内会提供一些比如说心理咨询或者说可以跟我们的运营同学沟通是真的有心理咨询对你可以在我们站内搜自杀对有自杀的关键词出来其实是会触发我们的善意机制所以你们是专门为用户配过心理咨询是会连接到外面的然后运营的同学也会关注到热线其实我们是热线打电话热线对
哦哦理解这点还是挺暖的对因为当你想要这方面信息的时候其实我们平常会认为用户已经进入了一个不好的思维里面他需要更加积极的引导嗯非常的精彩那谢谢好谢谢谢谢
以上就是我们今天的节目如果你也跟 AI 做朋友或者是从跟 AI 的交流中获得了陪伴体验感欢迎在评论区给我们分享感谢大家的收听中国的听众可以通过小宇宙苹果播客网易云音乐喜马拉雅 QQ 音乐蜻蜓 FM 励志 FM 来关注我们
我是洪君感谢大家的收听