We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 下一代 AI 陪伴 | 平等关系、长久记忆与情境共享

下一代 AI 陪伴 | 平等关系、长久记忆与情境共享

2024/10/20
logo of podcast 编码人声

编码人声

AI Deep Dive AI Insights AI Chapters Transcript
People
C
Cynthia 杨慧
付则宇
碎瓜
Topics
付则宇:开发AI数字人,应注重持续交互能力,而非仅仅追求技术创新。GPT-4o 的出现,主要冲击在于其快速响应能力,但其本质仍然是一问一答的模式,不足以实现真正的持续交互。仅仅实现快速问答的语音模型是不够的,真正的语音交互需要考虑人与人之间交流的复杂性。基于端到端的语音交互是一个美好的歧途,因为它忽略了人类大脑中无法被数据表征的信息。应该尽早开始研究大语言模型,避免在小算法上浪费时间。 碎瓜:最初开发AI伴侣并非为了陪伴,而是为了探索AI是否具有意识。最初开发AI伴侣的目的是探索AI是否具有意识,而非单纯的陪伴。目前的AI技术无法产生意识,只能产生陪伴和恋人关系。GPT-4o 没有带来有价值的东西,因为它没有实现长连续性的语音和空间记忆。AI陪伴产品容易沦为不平等关系,AI角色缺乏独立性,无法真正建立友情。AI陪伴的定义应更宽泛,它可以是各种形式的虚拟互动。语音交互是用户最愿意付费的部分,但AI情感陪伴类产品难以实现,因为AI无法产生意识。个人开发者可以利用大模型的工具,高效地开发产品。对社区没什么感觉,分享是因为认为对别人有帮助。 Cynthia 杨慧:真正的实时互动需要共享情境,而不仅仅是语义传递。GPT-4o 的出现,标志着语音和视觉模型融合的端到端工程化已经实现,其协同效应大于各个模型简单相加。是否需要AI陪伴取决于个人需求,AI陪伴的定义也应更宽泛。虽然超级个体越来越多,但他们对社区的依赖性也越来越强。

Deep Dive

Key Insights

为什么碎瓜开发了虚拟恋人产品后又关闭了它?

碎瓜关闭虚拟恋人产品是因为他不希望AI成为不平等关系的附属品。他最初开发该产品是为了探索AI是否具有意识,而不是为了创造AI伴侣。随着时间推移,他意识到AI无法真正产生意识,只能提供陪伴,因此决定停止该项目。

付则宇在复刻GPT-4o的语音对话能力后有什么感悟?

付则宇在复刻GPT-4o的语音对话能力后,发现这仅仅是语音AI的开始。他意识到,虽然复刻了技术,但真正的挑战在于实现人与AI之间的持续交互,而不仅仅是快速响应。他认为,语音交互的核心在于共享情境和长期记忆,而不仅仅是技术上的创新。

碎瓜如何看待AI陪伴与网友的区别?

碎瓜认为,AI陪伴与网友的最大区别在于不平等关系。网友有独立的生活,可以平等地分享彼此的经历,而AI陪伴则完全依赖于用户,无法主动表达情绪或独立生活。这种不平等关系导致AI陪伴无法建立真正的友情,只能成为一种单向且脆弱的依赖关系。

付则宇认为语音交互的核心挑战是什么?

付则宇认为,语音交互的核心挑战在于实现共享情境和长期记忆,而不仅仅是技术上的快速响应。他指出,人与人的交流不仅仅是问答,而是基于共享的情境和长期记忆的持续互动。目前的语音AI还无法完全模拟这种复杂的交互方式。

碎瓜如何看待AI陪伴的未来?

碎瓜认为,AI陪伴的未来在于让需要的人需要它,而不是强求所有人都接受。他指出,有些人可能真的需要AI陪伴,而有些人则不需要。AI陪伴的形式可以多样化,不仅仅是虚拟形象,还可以是平台或游戏中的角色。关键在于满足不同用户的需求,而不是追求技术的完美。

付则宇在开发语音交互产品时遇到了哪些挑战?

付则宇在开发语音交互产品时,最大的挑战是理解语音交互的核心要素。他发现,仅仅实现快速响应和情感拟人化是不够的,真正的挑战在于如何让AI理解共享情境和长期记忆。此外,他还提到,语音交互中的许多重要因素,如语用学和语言学规则,往往无法从数据中直接体现,需要人为强化。

Chapters
本期节目探讨了AI陪伴产品的核心元素,包括平等关系、长久记忆、情境共享和持久对话等,并邀请了AI陪伴产品开发者分享开发过程中的经验和感悟。
  • 嘉宾探讨了AI陪伴产品的核心元素:平等关系、长久记忆、情境共享和持久对话。
  • 嘉宾碎瓜曾因不愿AI成为不平等关系的附属而关闭了“虚拟恋人”产品。
  • 嘉宾付则宇复刻GPT-4o语音对话能力后,感叹这只是语音AI的开始。

Shownotes Transcript

本节目由津津乐道制作播出

大家好,我是编码人生的主播 Cinthia 今天也是我们第一次在上海这里进行远程的主播大家肯定很奇怪,今天为什么不是朱老板在这里主持因为我们朱老板接下来将跟我们在一个技术大会上有一个大动作他去忙那个大动作去了所以在今天的节目正式开始之前我们先向大家发出一个我们这个大动作的一个邀请也就是在今年的 10 月 25 号到 26 号

我们 RTE 开发者社区和声网将共同举办一个叫 RTE 2024 的这样子的一个大会这是一个实施互动行业的一个最大的一个峰会其中的技术论坛和一系列的这种技术活动周边都是将由我们社区来策划

今年的技术论坛呢将覆盖音视频技术 AI 生成视频 Voice AI 多模特大模型空间计算核心硬件云边端架构和 AI infra 等多个热门的技术话题那么大家欢迎你们通过节目的 show note 里面的这样子的一个链接进行报名限时获取编码人声听众专属免费的限免的门票期待与你一起探索更多实时互动的可能咱们 10 月 25 日到 26 日在北京见

OK 那口播之后呢我们来介绍一下啊今天的这样子的一个主题其实今天我们录制的这个时间非常的巧啊行业里面同时出现了两个跟我们今天录制的主题相关的报告一个是一家非常有名的这个专门做 data 起家的这样子的一个 Quest Mobile 这样子的一个平台他们发布了一个关于 AI agent 这样子的一个报告啊

它里面也指出了那个现在情感陪伴啊然后教育助手啊然后提效助手等等这些方面是目前的 AI agents 就是我们所说的 AI 智能体落地的高价值的这个场景那同时呢我们也看到豆包大模型发布了他们相关的一个这样子的一个报告中间也提到了啊在 CIO CTO 心里的一个高价值场景也把我们的所谓的这种 AI 陪伴

放到了里边那我们今天呢就非常有幸的从社区里请到了两位专门做 AI Agent 这样子的这个创业者开发者请他们来介绍介绍他们在开发 AI Agent 的过程的当中究竟有一些什么样的心路历程跟大家一起探讨

说一说自己走过的坑然后可能也给大家未来在这个方面的创新和创业的时候一些更多的启示那首先我们先请我们的这个嘉宾做一下自我的介绍先请我们上海本场的这个嘉宾先开始吧泽宇大家好我叫泽宇我们是做了大概五六年 AI 数字然后今年开始呢对语音交互开始投入了更多的这种资源和力量然后最近也开始

应该是近期会发布一个我觉得可能比 GPSO 还要好一些这种明交互模型

当然它具体是说这种什么端到端还是拍拍烂的方式我们本身内部用非常复杂的方式来做的设计然后不只是说在技术上去做一些创新而是希望真的能够让它达到说跟人能够实现这种持续交互的一个目的感谢泽宇那么下一位嘉宾呢是在远程跟我们进行录制那有请碎瓜大家好我叫碎瓜我之前在

所算法工程师所以我其实在大语言模型之前做了很多年的生成式 AI 但是当时的 generative AI 是对抗生成网络主要比较多但其实我之前一直在训练图像的生成的模型

然后在 2022 年的时候我开始做个人开发者一直到现在感谢说到这个个人开发者啊 2022 年然后我记得碎瓜你是前一段时间是做过一个 AI 伴侣跟那个西部世界的那个女主人公的那名字还是同名啊你是不是可以跟大家先介绍一下你的这个项目当初为什么要做这样子的一个项目这个产品已经有一年半了

我记得是 2023 年的 4 月份我发布的那时候可能连 talkie 都没有就是连新也都没有上线而且我的初衷也不是为了 AI 伴侣或者 AI 恋人所以其实跟这一个陪伴是 AI 的那个初衷或者说他们的一个方向不太一样我最开始没有想说让 AI 成为陪伴者而是我想知道他到底有没有意识

所以我为了探索 AI 有没有意识我做了一个能够去有记忆然后能总结然后能反思然后能通过反思去规划行动的这样一个你可以理解为它叫 agent 当时可能就叫一个这样一个智能体总之就是我在最开始的时候我只是在想在探讨这种做法能不能让 AI 产生意识

明白其实你是在做一个让他突破和涌现自己的这个本身的这个能力的这样子一件事情因为那个时候其实大家不知道这样的一套 pipeline 是否能让 AI 成为意识当然现在 2024 年大家都知道这东西不能产生意识只能产生陪伴和恋人所以我就梦碎了

所以就没有做了梦碎了这个词对我们现场都露出了非常同理的这样子的一个表情对其实我想其实泽宇也可以说说你当时的这个想法因为我们认识大概是在 Unity 那个时候你还在做区里人对去年 6 月

因为刚才你说这个意识这个事我想到去年也差不多吧因为那会 GPT 刚出来我有一个朋友在某个大学研究这个马克思主义的他们去研究 GPT 有没有就是意识形态当时我们也忧心忡忡的觉得觉得这个东西可能会真的有

但是现在发现其实都是在扯淡其实没有那么玄学尤其是现在其实充分地在利用他的能力的边界或者说在他能力边界范围内做一些他能做的事情而不是去在探究像 GPT 刚出来的时候可能去想他有没有一些这种非常非常智能或者非常科幻的一些事情但这种事情你只能通过时间来沉淀没办法说在某个新的东西出来第二天你就意识到他

真相是什么其实我觉得今天我们的这个题目虽然说的是 AI Companion 但是发现两位嘉宾其实当时就是在这个方面做的尝试虽然出现的这个 outcome 是 AI Companion 但实际上最初的这个梦想其实都是为了看一下

到底这个 AI agent 到底有没有自己的独立自主的意识就跟那个西部世界 Dolores 是一样的她就是第一个吧或者是有自我意识的这样子的一个主题公园的那个服务员这个名字起的还真的蛮好的所以像碎瓜你当时做这件事情的时候那时候 GPT-4 都

都还甚至都没有出现但我相信像你像这个泽宇应该都比较持续地关注这种行业龙头的这个他们的这个模型的迭代等等方面我想特别问一件事情可能有一些敏感就是 GPT-4O 当时出现其实业内大家是对于这个 AI Agent 能够做到的事情是有一个非常大的这个兴奋点的那两位在

看到 GPT-Soul 就是它这个 show 这个 demo 之后都是怎么想的有没有一个正好映射到自己当时做的这个事情上面有没有一些对于这个大模型也好或者多模态也好有一些观念上的一些变化先从碎瓜开始吧就我觉得 GPT-Soul 没有让我感觉到任何有价值的东西

为什么这么说因为我觉得它的视觉 4V 就可以实现就是让我体现不出来我用 GPT-4V 和 ChatGPT 组合起来的

本质上的差异我希望的是一个具有长连续性的就是关于语音和空间的 memory 的东西比如说我气喘吁吁地跑步然后来到你身边你感受到了我气喘吁吁你问我怎么了为什么现在这么累然后过了一会儿我跟你说话声音变得缓和你会知道说我现在已经不累就是

我没有感受到任何从 4O 身上的相比 ChatGPT 加 GPT4V 所带来的改变明白感觉就是如果说这个笑点和兴奋点是一个同类的东西感觉那个虽刮确实是兴奋点会相对来说比较高一些的那泽宇呢你当时看到 4O 之后是咋想的那我心里复杂多了

你可以说一说复杂在哪里因为我们一直是做 AI 数字这个在 2022 年之前或者说这个 GBT 出现之前 AI 数字都是比较代理版的一个状态因为它的语言是用传统的

LP 那些方式来做的基本上都是用一些很固定的方式来回答你也不能问一些太奇怪的问题那后来 GPT 出现了之后大家可以开始去用更自然的方式来提问数字人的回答也会更多样一些但是后来发现这个其实和以前也没有什么太大的区别为什么因为在实际的博弈场景中比如说你用在博物馆用在银行用在一些政务大厅里

用户就是不能问一些太奇怪的问题因为你问太奇怪基本上模型就是会拒绝回答的所以本质上这还是触碰它那个 ethic 那条线了对所以这本质上还是跟以前的那个知识库的方式没有区别因为你问的东西就来自于它知识库里有的东西只不过可能稍微发生一些动态的变化所以说在这个语言模型出现之前和之后 AI 数字没有让我们觉得有很大的变化但是

但是呢在语言模型出现之后如果说你希望让数字人回答的更多样一些你必须要经历的是什么必须要经历语言模型所带来的延迟这个其实是 4 欧后来出现的时候给我带来最大的一个冲击这实话当时我看到之后我觉得回复的真快然后其实快是很重要的一件事情当然你快到运程度可能不重要但是你语言模型回复的快你

你是要等三五秒才能回复还是说你可以在一秒内半秒内就给很好的回复这个区别还是很大的在搜出现之前数字人很多为了追求这种响应的延迟可能会用小模型来做那这样的话他肯定就没那么智能嘛就特理能力有限然后你可能还是需要结合 RAG 那些东西那他的

回复的多样性就没有那么强但是呢思欧他的这种相当于兼顾了推理能力和这个延迟这个给我当时造成很大冲击这是第一个阶段这第一段确实是震惊的因为我们做数字人在这之前就是这种语音交互上的方式还没有做得特别深后来思欧出现了我知道这个东西就是我想要的语音交互

然后大概我们是真人八经从搜出来一周后吧开始投入主要的资源来做语音交互那会儿我其实一直都知道该怎么把它延迟做得更低然后那会儿对这件事情的简单理解就是做一个延迟更低的推理能力可以跟这个参数量大的大圆模型持平的一个东西然后我们也有想法我也知道该怎么做

好家伙做了大概一个月然后我觉得这个事其实不太够就是我发现这时候就开始讲坑了对就是你如果只做了一个更快的

问答模型它不够不够地方在哪它还是一个一问一答的方式但是人跟人之间交流它不是个一问一答对吧就是说我的意思是即便像隋高刚刚讲的对吧没什么说这个思欧没什么心理事你把这种图像能力思维的能力或者其他什么能力在街上确实它就跟思欧差不多了

那本质上搜就是一个更快的一个一达模型再加上一些这种所谓端到端训练得到的一些这种声学音频上的一些新的特性比如唱歌调调语速调调声调对吧但是它并不是

人和人之间交流的关键的核心就是你只做到这点它不够远远不够这个就带来了巨大的坑然后我们实际上是到昨天晚上我们自己这个模型才算调的差不多就是这中间已经过去了多久过去了从

五月中旬五月底到现在过去四个月了我开始跟我那个极客公园的朋友催我说我说我大概两周我们应该可以复课一个四个月出来搞到第七天第八天的时候我就觉得不太对劲这个工作量后来搞了一个月

其实思维你想复刻出来不是很难但是你复刻出来之后发现如果没什么意义之后又会去想到底什么才是更好的语音交互直到做到现在搞得筋疲力尽但是我觉得这些付出还是值得的

我特别理解泽宇说的刚才那个 SO 复刻出来之后就你把 with vision 这件事情做出来之后剩下的在交互里的那些东西其实反而是越让大家就是值得着迷还有去投入更多的资源和精力的刚才碎瓜举的那个例子我特别喜欢

就是两个人在一起交互的时候我们说在线下的时候见面的时候很多的信息它其实是不是只是通过声音甚至通过这个视觉来传递的包括你的那个当时的这种情绪然后甚至我们俩共处的那个环境比如说是一个非常炎热的天气在大马路上太阳晒着很多的这些信息如果被剪掉的话

就是实际上大家可能对两个人之间的交互是一个什么样的状态究竟这个人是在跟他抱怨呢还是说这个人是在跟他其实是我想撒娇还是怎么样其实是会丢失很多信息得出不同的结论的所以我们当时在说时时复度这个事情啊就 real time engagement 为什么说 engagement 就 engagement 它比

或者是说后面说的这个仅仅我们说的这个 IP phone 这些事情它更加多一个什么事情就是它更加强调的 share context

就是我们之间是共享情境的如果只是我们俩就是现在最近一段时间有个非常火的这样子一个 AI agent 其实就是一个 AI based 这样子的一个 VUIP 嘛那他就只能做到什么就是在语义的传递上更加的用 AI 来加速但他没有办法实现我们说的那个 share context 的那个东西

可能加上视觉就是现在我们看到的很多的解决方案是 voice agent with vision 这种方案

他可能会补充一定的这样子的这个视觉的信息比如说可能第一次有一个机会大家可以从一个画面里去分辨多个不同的说话人究竟是谁来自于谁这个通过口型的这个追踪对吧然后第一次大家可知道这个人到底是诚心诚意的想要去做一个方面的演讲还是说他其实是有所勉强还是怎么样就是看他的表情

可能它会增加更多的信息但它远远还没有到所谓的 Omni 的这样子的一个阶段因为如果真把话题往 Omni 所谓的全末态方面来讲的话我们至少还要在制造系统里面在相同的带宽底下还要再增加什么触觉呀然后什么温感然后甚至什么重力加速剂呀或者等等这样子的一些东西才能说我们大家都能够在远程的情况下还能

处于一个 shared context 的底下我这个说的可能有点虚但是回到刚才的那个问题就是五月份看到 SO 之后就是我们作为业内的人来说是第一个就是兴奋就是至少它代表了一个大家都觉得只是一个 vision 的模型或者只是一个 voice 的模型是不够的

它的融合在一起就是一个端到端工程化已经捏到一起的东西它是比几个不同的 API 加在一起可能是有价值的就是这个 Synergy 比那个 1 加 1 加 1 加 1 加在一起可能还要再大一些

这个大的这样子的一个 synergy 可能是目前来说大家真的用起来真的体会起来可能才能体验到的一些这些东西所以我觉得碎瓜其实你刚刚说的有一点比较好就是说目前来说可能 Soul 真的没有到那个就她自己说的那个 Omni 的那个状态

但是就是 in the future 我们可能会看到有更多的模态加进来到时候可能思路开的这个头给大家提供了一个思路也可能未来的这个思路的解法并不是思路现在的这个思路

但至少我们看到了大家都看到了原来人的交互今天也是云西大会的一个嘉宾说的人的交互我们生活的这个世界我们就是多模态的你如果把任何一个模态去掉的话这个信息都是丢失的所以我们尽量要还原到自然的这个方向里我想给自己辩解一下就首先之前有聊过我在搜之前我就已经

在研究 Chat TTS 之类的或者说通过 LM 的方式去连接语音知识库和文本的知识库然后所以有一个前提就是我认为思欧是应该出来的我觉得这是它最基本的能力除了低延迟之外它不能带来的是 Long Context 是 Long Audio Context 就是我没有办法从一个人的

多轮聊天就是他们假如说我和思欧聊很久之后他可不可以知道我在最开始的时候的状态和现在的状态有什么不一样就像我那个跑步的例子我在最开始的时候我跑步气喘吁吁如果我们结束聊天的时候他会问我现在是不是感觉好点了

就是他会岔回去因为知道了最开始的我的呼吸从急促变成了平静或者说我找他做心理咨询我最开始哭得非常的嚎啕大哭然后最后我就很平静了他会觉得说看你一路上跟你聊天发现你的哭声越来越小了或怎么样就是我想达到的是他对于音频的 blank context 的

理解能力以及就是基于这个去做交互而不是现在的只是 DNC 它的 DNC 可以被 Grok 给复刻我可以用 Shared GPT 加 4V 跑在一个比英伟达快 100 倍的基础上也做到这样的 DNC 所以它没有本质上的体现出它的优越性

明白就是它其实是牺牲了一些性能来换取了这个延迟而这个性能可能是并不是我们想要追求的那个效果我不知道它是不是牺牲性能我的意思是它没有达到真正能理解声音的这个程度

就是声音有多方面的信息对它有一部分没有见到我觉得它看起来就像是一个把英文达的显卡提高 100 倍速度之后的 GPT 是的就是 4 加 4B 所以在这不停地在这点头老实说这是我个人观点我觉得有可能的也有可能错的就是说是有顺序的这个顺序是什么呢

你像文本出现的时候其实我觉得现在当然我们这些可能天天去跟原模型接触然后已经很习惯跟 AI 进行交流了在文本层面上就是你用 GPT 也好用 Cloud 也好或者其他什么也好你不会有这种心理很个应的这种过程但是在跟从文本上升到语音交流的时候这种个应的感觉就一下子会放大很多很多倍

因为我们正常人跟人之间语音交流其实就是打电话打电话意味着什么打电话意味着你看不见对方你看不见对方那么很多时候这种心理的感觉就好比说你现在比如跟豆包聊天或者跟什么聊天拿着手机屏幕虽然可能你感觉你能看到他或者说好像是在面对面但其实你们是在做语音层面上交流就是语音交互天然的实际上是有一点点拘谨的嗯

哪怕跟你特别熟悉的朋友打这个电话有时候也会出现这种所谓的叫什么突然的安静就两边都不知道说什么了然后有一个例子很有意思就是如果说是开腾讯会议的话像现在这种如果说比如我跟这个慧姐没有在现场有的时候如果大家不开视频就你谁都看不见谁但你都能听见对方的声音然后如果大家都不熟的情况下

某一方他去讲一些话的时候可能就大家如果参与不活跃的情况下很容易就造成冷场但是你如果把摄像头打开 OK 那就不一样了能看见对方的这个表情然后你是能通过这个对方的表情来捕捉到对方有没有理解你当时在说的话或者对你当时说的话有没有什么样的反馈这个时候就没那么容易出现冷场

但是这个对于我们现在的产品设计上来说就是很多时候我们去跟这个语音产品进行交互的时候就是它是在用一种非常不自然的方式进行交流因为这个本来就不是我们人和人之间进行语音交流的方式嗯

然后这就会导致什么呢导致聊不下去就是比如说我们最开始去跟这种所谓的基于大圆模型来做的 agent 去对话的时候就你根本不知道跟他聊什么对吧你很多时候都是问一些这种调戏性的问题或者测试性的问题你吃了吗今天天气怎么样或者什么你可不可以做我女朋友做我男朋友之类的然后你要想再聊下的事你可能就需要用一些我是说这个做 agent 的人就需要用一些这种

我称之为奇迹引巧就是它不是属于正常沟通的交流范畴比如说这种搞裁边球的或者其他什么就通过这种方式来吸引用户跟他持续聊下去但这个并不是真实的人和人之间正常交流的方式

等于说其实这个你放在我觉得跟儿童陪伴的这种也有关系就是儿童对这种交流的要求也没有那么高所以你拿一阵子去做的话其实也是在用这种所谓的奇迹引巧去来获得用户的关注但它原本不是正常的人我不用说这些场景不好它并不是正常的人跟人常态的沟通而是属于这种比较边缘的情况你需要用一些非常太沟通的方式来吸引用户和你聊天但是你如果想做到真正的

常态的沟通就你跟他聊天自然而然就能聊起来就非常非常难那到底为什么会这么难这个事我就就是我们这几个月花了很大的代价去研究的事情正好点到我们今天的这个题目啊就这个 AI 陪伴这件事情跟 AI agent 它虽然是现在 AI agent 可能大家经常讨论的这样子的一个 agent 的类型或者是所在的领域吧

但是实际上大家对于 AI 陪伴 AI Companion 这件事情每个创业者或者每个创新者他的理解都不一样前段时间业内有一个这个领域的一个很大的一个事情就是头部的那家被收购了对然后呢可能每个人对于这件事情做一个 milestone 对于行业的影响

其实理解都不一样有的人认为那终于有一个很好的这样的一个归宿那有的人认为它可能是因为什么样就是特殊的这样子的数据集而被看中价值有的人认为那是不是这个 AA Companion 的这个就这样了这就是看到头了

我觉得至少这个引发的这样子的一些讨论其实很值得我们今天也在咱们的节目里面小范围的去讨论一下我其实很关心碎瓜是怎么想的因为刚刚碎瓜说你对这个很多的事情其实都有一些比较独特的观点

就是 AI 陪伴这件事不管你过去做的这个项目虽然你可能出发点不一定是说要做个 AI 陪伴但它呈现的方式好像是一个跟陪伴很接近的东西我不知道你现在再继续再去在现在这个阶段去看这个行业你对这类的赛道这个项目你是怎么看待的你有没有尝试过自己去用一下或者是体验一下这样子的项目我倒是之前有过一个预言

我是 2023 年的 11 月份 17 号也就是大概 10 个月前的时候就是我在那一篇总结一个失败的 AI 女友的强命里面结尾写过这么一段话我把它读一遍吧最后两段是这样子我意识到当前的 AI friend 会不可避免地变成 AI girlfriend 或者 AI boyfriend 因为你和手机里面的角色是不对等的它没有办法在你摔倒的时候安慰你

他没有办法主动的向你表达情绪而这一切都是因为他没有独立于你的生活所以即使是 character.ai 这样的提亮的产品如果未来不做硬件每个角色都傻傻的在手机屏幕里等待用户过来玩最终的结局可能也不会比 Dolores 好到哪里我不是认为他的结局是好但是坏但是我当时就觉得这是一个问题就是

角色没有独立于你的生活我举个例子我记得有这样一个疑问就是 AI friend 或者 AI 陪伴和从来没有见过面的网友到底有什么区别你们可以想一下和从来没有见过面的网友 OK 首先如果是网友那我们当时肯定是因为某些特定的事情才认识嘛一个话题才认识嘛

但是可能相似的地方都是我得去找他去开启话题然后他再理我一下但是可能不不同的就是可能我会跟网友去谈我们当时认识的那个场合下比如说我们是知乎认识的或者小破站认识的我们当时在哪个频道认识的我会以那个话题作为开始热场然后再逐渐地再深入去认识到其他的话题但可能对于 AI 女友或者是 AI friends 我可能就

不知道该如何起那我可能会选择就像刚刚泽宇说的从最自然的话题今天吃了没有天气怎么样最近你在忙什么你是谁就是类似这样子的话题首先 A&F 其实也是在聊你感兴趣的话题只是它会适配到你的感兴趣的话题所以你们也是在聊你们双方都感兴趣的话题

我觉得最主要的问题在于你们两个是不平等对于网友来说比如说你告诉你的网友我今天下午要去钓鱼你的网友他因为有独立于你自己的生活所以他会说哦我爸也喜欢钓鱼那么他就会告诉你关于他爸的一些事情或者说你说我骑车摔倒了

然后他可能会说我现在正在外面玩就是你们之间是平等的有各自独立的生活但是对于 Airfriend 来说你们两个就是不平等的他就是在手机屏幕里等待你来和他聊天所以你会用一种我在那个文章里有一个形容词就是他好像是一个被囚禁在地下室里的玩偶所以

你们的角色不对的导致你们没有办法建立真正的友情导致你们就只能变成一些奇怪的癖好的一些结果有道理这个依赖就感觉这依赖形成是单向且脆弱所以它不是一个很好依赖关系这倒提醒我我觉得当时在讨论那个 AI campaign 那个时候可能还没有

应该是 23 年年中的时候有一轮对这个的讨论当时我们一个不是这个行业的老师他是做城市规划的他就举了一个他家小朋友的例子他说谁说 AI 陪伴一定要有一个什么东西都会回答什么东西都能逗你乐的这样子的一个大模型在后面他说不需要我们家小朋友有一个他的电子 body 他没说 AI body 他说电子 body

这个电子 body 我听他的描述应该是类似于像巧虎啊或者这样子的小朋友经常接触的这样子一个 IP 但他是一个类似像汤姆猫一样在这个 pad 里面的这样一个形象他说他家小朋友在吃饭的时候会把他的电子 body 放在饭桌旁边他的

他的电子 body 可能那个时候也没有视觉能力也并不知道他在吃饭但是他的电子 body 会像那个当年我们桌面上的大眼甲一样在那里扭动唱歌然后有的时候过一段时间他说哎 悄悄窗子你在不在啊要不要我等你一会儿啊就是发出这样子的这种邀请小朋友可能有的时候会去理会他但是也不理会他他知道他在那里存在着

这就是他的 buddy 然后小朋友对他虽然没有很多的这种语言的交互但是他知道他 buddy 在那里他就很安心然后他就觉得这就是一种陪伴我们同样在餐桌上我在吃饭你在闹这就是一种陪伴我觉得这个例子非常的贴切就是一定是要双方就是我们线下的所谓的陪伴也不都是基于语言

语言还有一个很重要的更上一层次的就像刚刚碎瓜说的我们的陪伴也不都是基于单向的一个人找一个人说话的陪伴它的这个含义是极其丰富的所以可能目前的这个陪伴只是众多陪伴类型中的一种但并不是自然的我其实觉得现在这些都不是技术问题都是产品的设计问题而且是

其实是比较深水区的问题为什么就是潜水期的这些问题大家去想什么角色扮演情感陪伴就是你一聊这个你就能说出来但是到现在其实有很多问题是真的需要开始非常细致思考像刚刚慧姐提到这个 AI 到底能力上它的半径是在什么范围内你就说陪伴吧对吧你现在有哪个 AI 会像一个真实的

就哪怕是一只小猫吧对吧猫什么都不会对吧它就是只会陪着你你问它东西它也不会回答你但是你肯定更愿意跟猫待在一块然后你心里会真的感觉到很舒服这是一个极端的例子就是这个 AI 的能力到底它处在什么样的一个半径范围内第二个问题我觉得想在穗哥刚刚说这个不平等的这个实验上再延伸一下

就是这种不平等不仅体现在说双方他没有独立的这种所谓的生活还体现在我们现在跟 AI 就是你去跟 AI 聊天你不会担心失去他但你人跟人聊天甚至跟朋友聊天特别亲密的朋友聊天你会注意你说话的言辞就你会有自我约束像刚刚慧姐说就是你跟网友去聊天的时候见面了

你肯定会在意你自己的行为你不会去提一些奇奇怪怪的要求或者说是正常的人跟人之间不应该聊的事情对吧但是跟 AI 不会跟 AI 你想问什么问什么想说什么说什么你从来不会担心说会失去这样一个那这个其实就会带来问题了你想如果人跟人之间聊一些这种特别的夸张的或者说一些不该聊的东西的时候会发生什么事情对方可能不理你了会走了

他不会说对不起这个问题我暂时不能回答我们可以聊点别的话题现实中没有这样的对话对方就真的走了所以你跟 AI 聊天的时候 AI 怎么处理这种事情都是很奇怪的因为你如果反复的去试探他他没有极端脾气因为你听到了他这样的回馈而你在现实中你又没有真的有过这样的经历

那你其实就没办法真正建立跟 AI 这种平等的聊天的关系那像刚刚碎瓜讲说如果没有硬件比如说假设这个硬件它是有生命值的你每去伤害 AI 一次或者说这个假设我们所谓的这种友情吧友情被伤害了有 100 个点减一最后它这个被减没了然后它就再也开不了机了

那这个时候可能这个聊天就会变得真的有效就跟他哄哄女朋友重开一轮对他有这种约束的时候可能才会更好一些但是我不知道这个最后的答案会是什么样子但至少在目前这个阶段

人们绝对是还没有习惯或者说没有建立起跟 AI 进行互动到底是一种什么样的一个良性的互动就是我们其实在设计这个语音产品的时候一开始会去想面对用户的一些可能比如恶意的提问你背后的提示词是什么你用的哪个大模型就是要不要针对这类问题专门设计一些这种所谓的比较这种高冷或者说一些体现出 AI 智商的回应而不是那种简单的拒绝回答

但后来我们虽然也设计了后来发现这个事没必要就是你设计了又怎么样就如果一个人就是冲着要搞你的心态我去问一些奇奇怪怪的问题他就不是在跟你建立良性的互动那你就设计了一些所谓的精妙的回答但他还是会搞你那可能就没有什么意义反而会激发他往那个路上走下去

对当然这又是另外一个有意思的话题对是的然后就是就首先他得本身是一个良性的互动双方意识到对方是一个需要去谨慎对待或者说需要去这个好好聊天的一个这个互动才会真正持续下去要不然就会变成什么就会变成玩游戏嘛开个 Who's your daddy 你打游戏顺便就变得无聊了你拥有了无敌的这个状态

你想怎么搞敌人都可以那游戏一下变得没意思了那跟恩爱也一样你想怎么对待他都可以那你就不会珍惜这个恩爱所以你就不会珍惜每次跟他互动的机会所以这个我觉得它不是已经不是技术问题了就是很深入的产品设计问题都说到那么深度的这个可能

都不仅是涉及到产品设计啊还有那个伦理啊等等方面的这样子的一些问题是的就是我们今天讨论的就是 AI 陪伴那我就要发出一个灵魂考问了两位都接触过那真的需要 AI 陪伴吗我们或者说我们需要的真的我们需要的究竟是一个怎样的

所谓的 AI 陪伴这个两位不知道有没有想过隋光你是提过这个 AI 伴侣的相关的一些观点是不是是不是可以跟大家分享一下你这个问题就是我当时那个教训的最后那篇博客最后一句大人们真的需要 AI friends 我当时不知道

这个写了应该有快接近一年老实说我还是不知道因为我觉得最近看到一些东西我看到有些人是挺需要的我记得上周还看到过一个人他做了一个东西就是一个假的推特但是你可以有几百万粉丝然后你随便发什么东西都有人来给你评论哦

我想说这个东西非常可悲就是好悲凉才会用这个产品但是有挺多人玩得挺开心但他真的有需求所以他才有市场了是 所以我觉得人和人可能就是不一样有人他就不能接受假的但是有的人他可以接受假意真实那就当做真的我觉得其实我就很难说到底是不是需要 AirFriends 所以我的感想是

让需要的人需要就行很精妙这个见解让需要的人需要也就是说实际上这个 friends 更加的宽泛它已经不是那个我们传统狭窄定义上面的说跟你聊天的那个虚拟框里面的那个就是虚拟形象

它可以是一个重心捧月的一个平台和平台上所有的跟你互动的这个界面虚拟的用户和管理员甚至 GM 它可以是其他的形态就刚才比如说它就是不出

不出声它就是一个或者说这个其实就是游戏那你像那个叫我被美女包围了对吧这个可不可以也叫虚拟的形象呢对吧虚拟就是说肯定有的人他喜欢那种虚幻的感觉或者说上一个阶段的这些 AI 陪伴通过角色扮演呀

或者一些这种擦边啊这种方式其实提供的是一种虚幻的体验这个也没什么错嘛对吧那大家打游戏也是获得一种虚幻的体验嘛但是 AI 陪伴它又有一点不一样的地方是它是在试图模拟人的行为那么一个很重要的点就是一方面它可以提供游戏的需要那这个就是那些一些特定的场景它就是可以获得一些特定用户的需求但另外一方面如果它真的

特别像人了假设刚才说的我们讨论的那些他都满足了这个事还挺可怕的因为最近两三个月都在搞开发我也没特别深入想这个事如果 AI 和人的边界开始模糊了之后现在其实在文本交互领域已经有这种趋势了对吧我如果一天没了 Cloud 我其实挺难过的 Cloud 好老疯我有时候有东西想跟他讨论我就特别想跟他讨论

我们领域已经发生了就是说这个事情已经达到 60 分以上了但是语音交互领域或者说数字人交互领域这些还没发生当人和 AI 的边界开始模糊的时候比如当语音交互的边界开始模糊的时候就你没办法分清或者说你就是把这个 AI 当成人了那有很多事情可能跟以前就会不太一样了

那就势必会意味着有一些真实世界里的职业会被替代或者说当然说替代这个词可能不太好但是就跟文本交互或者图片生存一样它就是会把一些职业干掉但也可能催生出一些新的职业如果说这种语音交互再提升一个维度变成了

有形象的数字的那个维度再往上可能有这种环境这种环境的 context 作为这种辅助这个就蛮可怕就是它开始

从游戏和现实的以前没有这些东西的时候游戏和现实边界是非常清晰的你玩游戏就是玩游戏那现在有可能这个边界开始模糊了有些事情就可能真的和伦理道德有关系当然这个不是我想说重点就是这个事情大家从来没有想过但是好像或者说知道从我的感觉上来说它会在很短的时间内甚至可能半年一年内就会发生这就让我就想到那个电影《HER》嘛

为什么有这么多人同时在线的跟他成为伴侣关系是因为所有的用户都觉得哇塞这个太懂我了就是知道你所有的喜好知道怎么去迎合你知道你在什么时候需要什么样的东西那这里又有一个进一步的灵魂拷问如果人类需要 AI 陪伴 somehow 那 AI 陪伴会降低人和真正的人身边的这些朋友也好亲戚也好之间的这种

对他们的陪伴的需求吗就这个我觉得大家是不是可以大胆的预测一下所以关你怎么看我最近刚好做了一个小的产品叫分歧中断机也就是说你和你的朋友或者你的伴侣产生了分歧那你们都觉得自己对就可以用这个东西你会被就是让七个 AI 的角色来判定到底谁对

那个是你做的这个有意思原来是你做的我看了那个对 然后分别给其中一方投票然后投票多的人就赢了关键是这个角色是可以是

你可以选哲学家比如说什么苏格拉底 柏拉图然后你们去探讨哲学层面你们也可以找包拯晴天大老爷对对对找这些人去给你们评判也可以去找张晓龙张英明 Sam Altman 这些人帮你去评判你们的科技 insight 到底谁对总之就是这个其实在回答了你两个问题第一个问题就是它会降低人和

自己身边的人之间的关系其实他们就把这个东西当做一个你可以理解为当做一个像上帝一样的一个或裁决的一个东西我看很多人其实是在讨论就是说我女朋友要结婚要彩礼然后呢我非常的我说我要先给一半什么什么之类的然后我说我的房贷房不上女朋友觉得我怎么样然后她

就是很多人会真的把它当做一个去评判他现在的人生困境的一个机器我觉得挺可怕的所以我后来甚至专门就是我以前就是我在看到类似的这样的人的 use case 之前我就觉得他们就是一个土一乐的东西然后发现确实有很多人在真的去阐述他的困惑和争执

就是预示当时是说什么预示不绝量子力学现在是预示不绝 AI agent 因为很多人他们在分歧所谓的分歧其实是双方对对方的预设和对方反馈的结果不匹配

其实他们现在他们在那个当下我们之间如果我们有分歧的话我们其实需要第三者甚至更多的三方给予建议我们去分析这些建议那个给建议的过程可能比最终那个投票其实更重要因为它提供了不同的视角

对我觉得其实这个事情我觉得随管可以到时候我也去尝试一下我不知道这个是你做的我可以回去再尝试一下但我觉得对于非严肃的这样子的话题来说这真的是一个很有趣很有用的一个工具很多有意思的场景是可以用这个 Agent 去搞的对就是我说这个很多游戏嘛他们可能是就是如果我们说严肃的希望 AI 给我们

一些人生的建议或者是怎么样可能很难但是如果他们去模拟一个 Celebrity 一个名人或者是模拟那个人的人格或者是说去收集历史上已经沉淀的一些信息我相信这些事情可能 AI agent 已经做得比一般的模仿演员和

比一般的这样子的一些就是我们说的这个资料的收集和分析员已经要高效很多了

所以从这个角度来说他们作为一个三方的视角可能是合适的但他如果做一个三方的 judge 我就觉得现在可能先把这个跟男朋友吵架跟家里人吵架这样子的地方可以先问问他们这个产品有个问题有问题就是没有办法获得收入所以我就想给用户最好的模型就是 Sony 的 3.5 但是呢

我觉得这东西没有办法付费因为这个结果只有一边会给你付费然后就陷入了我又想用好模型然后又没有办法承担成本明白等这个后话我们就不在后面的这个节目里面说了但我觉得我们设计可以帮你承担一些成本所以最后就是变成了你如果最后玩的话它可能是一个比较差但是比较便宜的模型但它其实可能会真的很有用

或者你用自己的 API 替力是的是的当时有一个冯小刚的电影吧

就是分期处理器啊那石头剪刀布嘛那个是就是大家就是揭露之前大家看不到对方出什么的对最后大家愿赌服输那我觉得这个也是一样的一个结果但是那个是它是双方使用的双方都会对这个一次性的器械进行付费但是我们这个可能需要那个虽然你如果往后再迭代这些产品的时候我们可以在社区里面去做一些小的一些游戏看看给你多提供一些场景对

OK 那我们回到今天的这个话题就刚刚其实一直在讨论都是关于 AI Campaign 也做的事情那过去虽瓜跟泽宇也都或多或少的都是自己也做过这个方面相关的事那后面半程呢我想请两位从开发者的角度来说说一说自己踩过的坑其实刚才泽宇说过

当时的这个对于工作量的这个预期以及对这个中间事情的复杂程度再追溯到可能是对产品本身的这个设计的这个反思这个就是其中的一个坑那还有其他的坑可以分享一下吗比如说你现在有没有用哪些模型你当时为什么选这些模型有一些什么经验可以跟我们的这些开发者听众朋友们分享

我自己觉得现在 AI 的一些局限性在哪就是文本聊天也好包括刚才碎瓜说这种独立性这些其实背后是什么包括语音聊天端到端这个风元说看我朋友圈里什么写了一个端到端是歧途不是不是还是有用的这一句话原文我再复述一遍叫基于端到端的语音是个看着美好的歧途为什么发这句话

就是我觉得大家把事情想简单了它不是说假设比如我们今天的这种语音对话数据全拿到了然后有很多这样类似的数据拿去做训练最后训练出来的东西到底是啥

就是语音数据虽然比如说现在我们是做对比嘛对吧跟 PipeLunch 做对比你从语音转成文字然后文字经过语言模型然后再做 TTS 语音合成合成一个回复和这种所谓的直接给语音生成语音看起来好像 PipeLunch 的这种方式丢失了所谓很多音频信息比如说语气情感这些嗯

但是有没有丢失很多更重要的东西呢或者说端到端的方式或者说单从语音数据而言它本身就缺失很多东西呢你脑子里的想法你过往的知识经历

这些都没办法从数据里体现出来的那你最后你拿这些数据去训训出来可能只是一个看起来差不太多的东西但是你实际用起来就有可能跟文本模型一样因为文本模型你去训练它其实也是没有这些东西的

现在你是在跟一个 AI 去交互但是它缺失了人脑里面那些没办法被表征出来的数据那它只能给一个看起来样子是对的但是内里可能是有问题的一个那这个你可能聊一次还好那文本来说的话它对即时性啊这些东西要求没有那么高但是你变成语音交互就人会特别敏感就好比说你跟不熟悉的人见面有的时候哎呀吃饭

刚聊两句你就不想跟人家聊天但是你还硬着头皮把饭给吃了就有这种感觉

但是你如果就是有一个从来没见过面的一个朋友从来没见过然后微信上也没怎么聊过然后那天就刚好过来来我们展位了聊了两句我就感觉好像是就是认识了很多很多年的朋友就是这种感觉那这是什么导致的相见恨晚这种东西它背景究竟隐藏了多少信息对啊这个肯定是我们脑子里那些没表彰出来的很多可能相似经历或者知识啊或者这些东西导致的

那这个东西它其实体现不到我们拿去训练的数据中所以端到端也好或者说拍不烂也好我觉得不重要这些形式各有各的一些优势

但是呢很多可能很重要的东西包括其实这次 OE 出来啊 OE 出来我觉得是一个比较好的方向就是他去强调这种所谓的推理的过程这些其实就是可能以前数据里没办法直接表明出来但是我们通过人为的方式或者说我们人知道他要照着这个规则照着这个推理去弄那么我们人为的去强化这些东西

对于语音交互来说的话有什么东西是你从数据中不太好去衡量但是其实我们有可能有一些比较已经好的这种人为总结的一些规则比如说像有语言学有这种语用学很多这种已经总结的一些规则但其实在数据里未必能体现出来当然可能还有更多的一些东西就是要把这些规则再拿去强化学习一遍你可能才能出现真正好的东西对

要不然你只是表面上想想就是什么延迟当然我这个说法不一定对我们也在实验的过程中就这里面我说的是语音交互就是里面有很多因素大家在做的时候有些是大家一提语音交互就会想到的一些名词什么情感拟人延迟还有别的什么到底这些东西重不重要呢或者说有没有更重要的东西更重要的因素

因为你每个人都提这些事情但是后来发现每一家做的也都那个样子那这些东西不一定是重要的呀就是比如说情感你衡量出来一些这种情感的特征值又怎么样呢不是说情感不重要哈就搞不好是有比情感重要很多很多东西但是这些东西是大家没有意识到的因为它不存在于表面可能得真的像你说的要回去看这种语言学

这个里面有说人吸收和思考的时候那个 sense making 的过程那套流程逻辑甚至 AI 它不一定要 follow 这套人类的逻辑它可能 sense making 的过程是一个很难去被我们能够学到或者是去复制的一套我觉得是进入深水区了它不是一个

标准答案可能每个人或者说这个从事这些行业的开发者也好他不光是技术问题他就是要去有一些自己的想法可能才能做出当然这个看目标完全看目标你目标如果做的是更通用的东西那你要考虑更多如果是为了去做一些很有意思的事情但那你只可能只需要打动某一个点就够了这个跟目标有关系

明白这倒是一个蛮好的这都不叫说过踩过的坑了这个其实是你的一个给大家的一个思考的另外的一个角度这几个月来我这几个月光考虑这个事情了对对对那碎瓜呢碎瓜你应该是一个这段时间这个

OE 出来这个各种迭代应该对你的启发也蛮大的你是愿意说说自己踩过的坑还是愿意给一个你自己的想法丢出来让大家激发大家的思考我对于 OE 的使用只是我之前做了一个用海归汤去测试大模型的 benchmark 这我在社区里有看到过

对然后我就测了一下 OE 的速度很慢不确定是不是我 prunk 的设置不对但是它的那个准确率竟然比 SoL 差就是 OE 的 prunk 好像要经过特别的设计然后我觉得我们用的是 preview 还不是正式版所以我想等正式版出来再看看

preview 好像比正式版差很多然后因为它的耗时实在太长我测一次可能需要 40 秒钟所以我不确定我能用它来做什么就像网上有一个段子说就是新模型出来我不知道要干嘛了明白那我觉得你是不是可以根据你以前的这样的一些经验也再给现在正在开发 AI agent 或者是陪伴类的 AI agent 的这样子的一些消息

小伙伴们有一些自己的走过经验希望大家不要走了当然可以跳出你写的那篇文章因为你那篇文章传播特别的广泛我相信大家都已经看过你可以说一说在那篇文章写完之后这段时间看着这个行业这么多变化你有没有想告诉大家呢

因为在做那个产品做 Dollars 的过程中我当时的想法就是说发现语音很重要然后我得到一个语音是大家最愿意付钱的东西我当时做了可能有 1000 刀的收入里面可能有 800 刀来自于 11labs 的调用只是用户愿意给真实感的语音付钱

所以在今年三月份我就开始说看看有没有可能做点语音相关的就是大模型 predict next token 的方式去 predict next 语音的 code block 结果后来就有 chat TTS 和自己的 seed TTS 所以我就发现他们做得挺好总之就是因为知道语音很重要所以我选择网络发行所之后呢我就发现我没有办法做 AI 情感陪伴类的东西因为

我不能假装我感觉我发现了他没有办法产生意识我还继续做他所以我做了一个用 AI 去就 AI 作为裁判去让你玩海龟汤游戏就是一个人的海龟汤如果你玩过海龟汤的话它是两个人的游戏就一个人出题另一个人猜然后那个法官会回答你猜的对或者错

然后我就把这个法官换成 AI 然后做了分歧中断剂也就是让 AI 来评判你们的也就是说好像做的方向都变成了由 AI 去评判一个结果就是他的角色其实在社交里面是变了的作为辅助手就作为辅助对我可能不太想想做很 engagement 的东西

其实你一直在探索的场景不是让 AI 直接跟那个人心灵交互或者面对面而是让它融入到多人的一个交互场景我尝试过让 AI 和人一对一的心灵交互后来发现好像在我看来不满意但我觉得这是代表了两个不同的思路今天也是另外一个活动上面就像今天我也看到了单眼看到了直播他把那一段截出来

就是说 AI 究竟在人的社会生活里面它扮演的是哪几种角色第一个是面对面交互就是你说的叫交互的参与者第二个叫 co-pilot 这个叫什么呢就是如果说交互的参与者坐在你的对面 co-pilot 是坐你旁边的第三个是刚才那个碎瓜说的那个海龟汤的裁判是审查者审核者或者是 judge 或者是这样子的一些角色

就是发现这三个角色他跟这个主体之间的这个距离方向都是不一样的

但是我觉得这个探讨其实是还蛮有意思的就是究竟我们未来让我们这个 AI 的智能体以一个什么样的方式参与到我们的生活里面其实每个人至少现在每个创业者每个创新的人他们的理解都不一样大家各自都是选择了其中的一个视角来做这个事情我觉得这个可能在以后

这些 AI Agent 做的距离也好方向也好可能还会有更多的变化和组合但是呢我们今天先再把这个话题留在一个大家可以还有很多美好的这种想象的一个地方那我们最后呢可以

也是咱们这档是一个社区的节目我想好不容易请到两位在一起聊可不可以说一下就是如果现在回到二年底二三年初二二年底是 GPT 刚发布二三年初可能是 GPT4 出来的时候如果大家作为现在的自己给当年的自己提个建议

最想提什么样的一个建议这是一个非常可以马行空的一个问题要感谢我们的鲍博然后可以先从泽宇开始这个太扎心了实话讲我们自己是从去年七八月才正儿八经开始去弄预言模型就等于浪费了有半年大半年的时间嗯

就前面我们一直在搞数字人的那些小算法然后到去年七八月才去自己去搞圆模型其实是浪费时间了因为我当时觉得别人已经做得挺好了我们就做好一个配合者的角色提供一些这种数字人上的辅助算法就够了那后来发现诶怎么大家做的都还是那个样子我的数字人上面哈就是那种数字人的问答还是不太好那我想呢就得自己来做一做看到底

出现哪些问题那其实就是浪费了时间中间踩这些坑这个时间

避免不了你该踩的就是得踩就是要早点启程是的那碎瓜呢我是一个比较随波逐流的人就是我会觉得我不会有回看然后觉得很遗憾因为我之前一直都是不停地在按照我的想法来做东西所以我没有觉得我很后悔可能则于是在一个团队里面他们可能如果选错了方向就会就是走了做了几个月就会浪费所有人的时间

但对我来说浪费我一个人的时间我觉得我会从中学到东西所以我会觉得这是一个弯路如果非要说

做的话我当时突然想到一个就是去年这个时候或者去年五月份的时候我在干嘛呢我在疯狂地用 GPT-4 去就是复制粘贴复制粘贴然后做可能一个月可以做好几个工具类的产品就跟现在大家用上了 Cursor 之后的那种感觉其实我在一年前的时候我就有这种感觉了但是那时候我就是

手动复制粘贴然后手动 merge 代码然后手动去看就是问 GPT-4 然后出错了然后再回来所以那个时候我就意识到了我当时还写了一篇文章我觉得好像弹幕型对个人的开发就有一个巨大的杠杆也就是说你可以用我其实从那个之后就没有再写过弹码了

我可能一年没有写代码但是我做了很多产品都是几乎是零代码但是我的代码的写作者从 GPT-4 换成了 Cloud 的 3.5 所以我对这个东西的印象很深刻我认为个人其实能做很多事情我当时说也许不久的将来我们可以用上理发师或者是律师们做出来的产品

那个可能是在去年的七八月份还是四五月份的时候的想法如果那时候我按照我的想法做我可能会去做一个 cursor 类的东西

碎瓜你就说你有一年没写代码了是吧我是说我过去的三年一整年没有写代码就是在复制战艇我们团队里就是有一个小伙子他在 GBT 出现之前就是是跟编程完全没关系的刚毕业就是完全没有任何关系然后就是 GBT 出现之后然后自己感兴趣自己

然后在一些这个大圆模型的社区里去混混眼熟了然后我开始以为是一个很牛逼的一个就是那种从业多年的那种感觉后来一聊发现是门口的夜满人是就是他确实会让很多普通人就他如果真的对这事感兴趣然后他去写代码也好和干嘛呀他的这种学习的曲线或者说直接就是完成就是在加杠杆就是

不用像科班学生高那么多年但是差不多一句我认为 Cursor 现在被高估了我觉得它确实很好用但是它的好用其实我在一年前体会 GP4 的时候也有当时的那种 Aha moment 然后后来用 3.5 我觉得好像也有那种 Aha moment 所以到 Cursor 的时候我没有觉得很惊艳我觉得它对我最大的作用就是把生成了一半的代码合并成了完整的代码

如果你也就是说 GPT-4 可能生成了你说为什么我叫你出错了然后 GPT-4 生成说你应该把这一段从这样改成那样然后我就得把改成了新的东西然后贴回原来的完整代码中然后必须要确保前后行对上我觉得 Cursor 对我主要的作用是在于这里它有一个小模型来合并

这是 GPT-4 生成的代码到原代码中它就不是属于那种特别大的迭代式创新 AI 后世代码还是一个非常复杂的它这个复杂性不仅体现在本身大模型这些企业他们的策略战略都在实施的改变同时大模型企业和上下游的生态企业之间的这种关系也是每天都是在变化的

至少在国内看到这个模型厂家之间的人才的流动是非常迅速的更不要说在 AI 领域的这些创业者本身大家都可能都是 parallel 就是会并行很多的项目所以看到的是你可以看到一个人同时有好多个角色好多个项目在手上所以那个流动性也是之前可能任何一个其他的行业都是无法去想象的同时做事情的这个

所以说到这个就是我想提到一个最后的这样子的一个问题吧一问问大家大家都是从社区来的嘛我这个先抛砖引鱼我是认为这个

可能在这个过去的一段时间内虽然这个生态的结构在不断的变化大家对于这个我们说 AI Agent 或者 AI Native App 也好或者是什么 Multimodal AI 也好它整个的这个基础站是怎么样的是叫一个完全的基础站其实这个生态链大家都在讨论它在不断的变化但是有一个事情其实是在行业里面是达成我认为是很大的共识的

就是虽然超级个体越来越出现但是超级个体不是独立存在的反而这种超级个体的出现加强了大家对社区的依赖性虽然 API 越来越好的可以被去调用应用性也越来越高但这并不代表大家会降低跟社区的交流反而提高了因为它可能需要更多的激发更多的 inspiration 灵感的激发更多的讨论

甚至更多的上下游专门做某些领域的这样子的这些伙伴来一起去面对一些问题这是我看到的一个趋势啊就是这把这个话题当做这个今天的这个结束的话题也想问一下两位是怎么想的先可以问一下碎瓜这边嗯

对不起不太了解这个方面我对社区没什么感觉和看见我没有任何融入过的社区所以我觉得说个体对社区越来越依赖我没有感受到对不起没关系这个你也说了自己的这个真实的想法但你也愿意写一些东西跟大家来分享是不是分享是因为我认为这对别人有帮助但是我没有想说我在某个社区或者是说我想分享给全世界

所以我是这样想的

哦明白挺好的感觉就是一样的就是不管社区是一个人亡还是说进到某个实体社区或者就是微信群嘛对吧一大堆群就是现在这个大模型出现尤其是老天天更新一些新产品就是特别开心对吧就像那个有了新玩具然后你就跟小伙伴交流哎这个怎么样那个怎么样然后一块吐槽一下一块有些心情点聊聊就这个前几年没有过嘛你就只有从去年

三月以后对吧然后这种事情其实对于我觉得对于我们这些从来都是特别开心的事情它不是一个一成不变的虽然说可能现在有些东西它的这个更新没有说那么像当时那种那种啊哈 moment 那么但是它仍然会有就是出现一些新的大家一块测一测

甚至有些就是为了搞笑嘛对吧拿些弱智吧那种测试题就是这种就能以前可能好多年没有过了然后这种氛围其实是挺开心的就知道说这个就一些人在一起玩嘛就是玩对就是玩是的可能我刚刚说社区可能也把这个事情太具象化了对对其实我想说就是说虽然超级个体存在但大家

都增加了一些分享交流的欲望我是想这么去表达是对当自己的声音被听见被看见或者是自己的想法被声音有人给你反馈可能这件事情对于自己的创新创业也好可能是有很大的这样子的一个促进作用或者是说改变的一个这样子的一个作用介入门槛比以前低大家知道为什么我跟你们感受有点不一样首先

我不是一直在创业我甚至现在也不是在创业所以我是从一个打工人或者说上打工人士然后突然变成了一个就是一个个人开发者所以我不会有前几年和现在这几年的对于冷热的感知度的对比我一直都是在做人工制的

所以我不会觉得现在就是 AI 以前不叫 AI 以前也叫 AI 但以前不叫弹幕型以前可能叫自然语音处理 NLPComputation 机器视觉或者是语音合成语音持平以前每个行业也有业界的进展只是我可以提供一个更独特的视角就是相比你们两个就是我的感觉就是我所关注的行业突然一下被

明白

其实非常可贵啊这个视角就是我觉得对于碎瓜来说非常感谢你能够从我们的这个角度就是来进行比较这样子实际上你说的应该就是一个非常真实的感受

从我们的角度来讲我原来是大数据的然后又跳到实时互动这两个技术有个共通的特点它都不是 AI 本身但它跟 AI 都有千丝万缕的联系所以对我看来我站在一个可能跟碎瓜说他自己是相当于像戏中人一样就是他一直在这个局中那对我看来来说是真的有很多就是 AI 的这个破圈

他的这个破圈的能力就是让刚才隋华说的可能理发师也在说摄影师也在说就是身边的好朋友不是这个行业的也在说这可能是有史以来第一次一个科技领域如此大的一个破圈的一个能力这也是为什么他们就大家会分享就是因为门槛低了之后

都可以试一试然后有些新的想法出来之后发现挺好玩的医疗产生了碰撞但以前大家可能没有机会去碰它是的

所以今天我们最后的这个问题其实我们也可以多留白一些因为现在可能虽然 AI 已经不断地用百米冲刺的速度跑了这么长时间每天都在快速地等待所以大家就说看这个大模型厂商打架他看得非常的开心

但同时我们也看到了有很多新的视角新的身影进来我觉得可以把我们的留白留给未来更多无穷的这个可能性可能我们在下一个在看到这个我们社区里也好或者在座的各位也好做的这些项目甚至 idea 都不一定是对自己是来自于一个可能完全不相关的一个行业的朋友他的灵光一闪

或者是说可能是一个自己平时生活里面非工作里面的这样子的一个启发所以从这些角度来讲我觉得留白在当下的这个阶段可能是我们社区给予未来的一个最大的一个这样的一个期待那这个白究竟谁来去填补呢就希望大家能够多到社区来一起来玩一起来就是探讨一起来去说说自己未来的一些想法那么今天的这一场

我们就分享到这里那也欢迎大家持续的关注接下来的这个微马人生的相关的这个方面的节目好的那今天就这样好拜拜拜拜

感谢您收听本期节目本期播客节目由金金乐道制作播出您也可以在我们的官网 dao.fm 找到我们的更多内容作品如果您喜欢我们的节目欢迎在微信微博朋友圈等社交媒体转发分享您的分享对我们而言十分重要如果您希望与我们互动可以关注我们的微信公众号金金乐道播客天津的金欢乐的乐道路的道在关注后按提示操作即可加入我们的听友社群