cover of episode 当机器能自言自语:一年12场AI比赛后,深聊Agent、具身智能边界何在?-对谈Rex陈正翔-Vol60

当机器能自言自语:一年12场AI比赛后,深聊Agent、具身智能边界何在?-对谈Rex陈正翔-Vol60

2024/12/15
logo of podcast 脑放电波

脑放电波

AI Deep Dive AI Chapters Transcript
People
R
Rex 陈正翔
托马斯白
Topics
Rex陈正翔:Agent 的能力可能超出我们的想象和道德伦理,在实际应用中,需要考虑安全性和伦理问题。在开发轮椅项目过程中,采用AI加硬件的思路,利用Agent调用工具完成任务,并使用多模态模型提升用户体验。同时,他反思了传统硬件加AI的思路,认为AI加硬件更适合创业者,并对端到端技术路线提出质疑,认为其存在数据过拟合和数据收集难题。他认为,无监督学习,尤其是强化学习,更适合机器人训练,并看好开源力量推动机器人行业发展。他认为人形机器人从结构上并不复杂,未来可能在华强北组装。 托马斯白:AI加速了个人创造力,推动了创业项目的发展。他认为,多模态模型是未来,但现状可能需要多个模型协作。他回顾了巨身智能领域过去一年的进展,包括多模态、远程操控、动作克隆等,并对端到端技术路线提出质疑。他认为,家用人形机器人的价格和实用性是关键,并看好小团队创业的机会。 Nixon:对多模态模型的应用和挑战进行了分析,认为端到端模型存在数据过拟合和数据收集难题,并对未来多模态模型的应用前景进行了展望。 Rex陈正翔:通过参加黑客马拉松,快速获得产品原型和用户反馈,并获得投资。他反思了开厂模式,转向Agent加硬件的思路,并对硬件解偶后可以用语言描述控制进行了探讨。他认为,多模态模型可以取代唤醒词,并可以识别非语言的声音。他认为,端侧小模型触发,云端大模型解决复杂问题,模型间协作无需复杂算法。他认为,端到端语音模型即将到来,现有工程工作可能被推翻。他认为,Agent的能力可能超出想象,引发伦理问题。他回顾了巨身智能领域过去一年的进展,并对端到端技术路线提出质疑。他认为,家用人形机器人的价格和实用性是关键,并看好小团队创业的机会。他认为,AI工具帮助一个人完成复杂项目,并对超级个体和复仇者联盟模式进行了探讨。他认为,文科生的价值被低估,并分享了自己的人生经历。

Deep Dive

Chapters
Rex分享了他从电动滑板创业的成功,到非洲卖假发的迷茫,再到回归AI领域,一年参加12场AI比赛的经历。
  • Rex的电动滑板项目在Kickstarter上众筹74万美元。
  • Rex曾因中国产品优势减弱,在非洲卖假发时感到焦虑。
  • Rex回归AI领域,一年参加12场AI比赛,探索AI技术的边界。

Shownotes Transcript

大家好 欢迎来到脑放电波脑放电波是一档关注科技前沿品牌营销和个人成长的谈话类节目每期带给您一个有趣有据的话题帮您在信息严重过载的现代世界小幅自我迭代我是托马斯我是尼克森

滑板那个项目有一个特别强烈的信号直接会跑过来很多人说我能不能在当地拿你的一个代理第十天的时候筹了就已经十万美金了然后那会儿就开始有 VC 就开始主动在打听我的联系方式会主动找到我然后这家公司就这么启动起来了

他可以操控一个如此大功率的电机的情况下他完全有能力自我引发一次火灾我觉得 Agent 他能干的事有很多是我们今天可能还想象不出来因为他所推理出的解决方案有可能是超出我们的想象和道德想象的

本期节目我们希望是一期以小见大的节目我们从这个 Hackson 就黑客马拉松里面我们发现了一位有趣的朋友然后呢我觉得这期节目呢可以从两层以小见大一层呢是从这个 Hackson 里面

我们能够看到机器人或者是巨生智能这个行业它是怎么样从一个简单的消费品变成了未来有极大故事的下一个创业的一个大赛道的那第二层呢我们也从这里面看出来一个个人的创造者他怎么样将自己的很简单的东西凭借着 AI 的这些烂潮释放他的生产力最终变成一个创业项目的

所以说我们在 Hackson 里面发现了一位非常有趣的嘉宾他的名字叫做 Rex 陈正祥然后过去一年里面他经常出现在我的时间线上是因为他在大的科技公司他组织的一些 Hackson 上他会拿一些奖 Hackson 其实就是一个周末 48 小时大家聚在一起从零开始做一个小产品吧做一个小圆形的一个比赛中文名叫 Hack Marathon

对 黑客马拉松也可以叫黑客松所以 Rex 拿奖比较多我们请 Rex 自我介绍一下哈喽大家好我叫 Rex 陈胜祥我正好是可能十年前 14 年开始第一次创业然后第一次创业之前其实打了非常多黑客马拉松我当时可能已经拿过 20 多个冠军就一度因为那时候特别流行奖品是送一些 MacBook 然后 iPad 这些我一度我自己的咸鱼上面就是卖各种各样的苹果设备

对 Rex 是我见过拿奖最多的打黑客马拉松拿奖最多的人在我第一次创业之前也是参加了非常多的黑客马拉松然后这些黑客马拉松我做过很多奇奇怪怪的比如一些情绪用品一些让广场舞大妈可以静音的去听音乐的一些东西其实蛮多尝试我在第一次创业之前也已经打了十几场完全不同的主题的黑客马拉松第一次创业的结果就是电动滑板其实也是黑客马拉松的一个结果

因为每次 Hackathon 打完之后它有个好处就是你马上就得到了一个最小的一个产品原型就是 MVP 嘛你很快就可以找人去试然后接下来这一个礼拜就会有人给你有一些反馈有的人会说你这东西对吧没啥用其实你就自嗨或者你拿锤子找钉子但是有的项目别人就会真的给你发私信然后陌生人会给你转钱

对就加你微信马上一个红包发过来说我这东西我想预定什么的但滑板那个项目有一个特别强烈的信号直接会跑过来很多人说我能不能在当地拿你的一个代理

对这个信号给我很有意思他想拿代理这个信号是直接就愿意给我转账对我说我这东西就做着玩的他说你就真的去做吧我现在就愿意给钱所以后面就把这个项目就投入了更多时间去做然后因为我自己其实背景不是很亮眼的因为我并不是学校或者大厂背景的这种所以对我来说我的杠杆是很小的对就我没办法靠我的学历或者靠我的大厂背景就直接所谓拿一笔融资虽然可能 10 年前的资本环境还不错

所以当时我就上了一个 KickSeller 就是一个众筹平台然后我在那个众筹平台上第十天的时候筹了就已经十万美金了然后那会儿就开始有 VC 就开始主动在打听我的联系方式会主动找到我说小伙子你要不要融资然后三十天的时候我筹了七十四万美金所以我上完众筹之后马上就得到了一些天使投资然后这家公司就这么启动起来了对我第一次知道 Rex 的名字的时候就是

他是一个当时在中国创业者里面很少见的靠 Kickstarter 拿到了很大的一笔预付金然后我觉得当时你做的项目的定位是全世界最轻的电动滑板对吧对然后我觉得很有意思的是因为过去十年呢我有一些高峰期然后但是其实也有非常长的低谷期

因为第一次创业你会犯很多错误然后后面整个人生你会处于一个我身边认识很多创业失败的人都去在体育上面或者一些奇怪的方面表现得很不错很多人可能就干脆就不想创业了因为他不想再去承担这样的情绪上的压力或者等等各方面还有人欠了很多债务

然后我其实后面就在非洲卖假发听起来非常莫名其妙的一个事然后逐渐开始在卖假发的过程中开始迷茫然后开始去问自己到底想要什么自己到底是希望在哪个国家去生活因为 30 岁之后你会很快觉得在一个地方定居下来可能 10 年 20 年这一辈子就没了

然后逐渐到我去年把公司给关掉然后开始了一个自我救赎之路就我重新开始学习编程重新回到 Hackson 因为 Hackson 对我来说是一个舒适区对我来说是游戏里的英雄死了之后就回到酒馆复活的复活点所以电动滑板公司当时是哪一年 14 年开始筹备做差不多 15 年才正式开始

15 年上 KS 对吧对所以这是真的是典型的两波热潮 REX 都赶上了一波就是 14 15 的那一波智能硬件的创业大潮第二波实际上就是最近两年开始的这种 AL 大潮在这两个大潮的中间确实就是个人硬件的创业者相对低谷的这么一段时间我觉得 REX 过去的经历刚好是整个时代的大潮下的一个非常好的一个缩影

然后 REX 的第一个项目个人的超级个体然后通过一个创业马拉松的项目获得了关注然后在 Kickstarter 这样的一个平台上获得了一个巨大的成功然后也有大量的资本涌进最后开始创业的这样一个故事呢

其实也很像我们在上一期跟李楠聊到的超级个体的话题包括 AI 带来的这种个人创业的这种机会的话题但是其实我们在前采的时候跟 Rex 聊过 Rex 本人其实并不支持超级个体这件事情这件事情我们会在后面的节目里面跟大家再详细的聊一聊我觉得这是会是一个很有意思的话题就是为什么一个在我们看来非常超级个体的人

旗帜鲜明的反对超级个体我想也是大家很多创业者想要听到的内容超级个体是大家对我最大的误解对我们先卖个关子对所以 Rex 就提到说我看你自我描述就是说在非洲看到国内在 AI 创业大潮起来了然后你又回来打这个

我看你自己的统计是过去年应该是加上我们前几个星期见面的时候应该是第 13 个项目了第 12 个我过去一年到现在打了 12 场我觉得因为距离去年我在那个非洲的夜总会我就其实那会儿我就挺焦虑的因为假发这个生意呢它是一个没法继续做了因为中国姑娘不卖头发了所以我其实花非常多的时间去每天在中东也好在西非也好去扫商场去寻找新品类对然后在这个过程中我

我逐渐发现中国的产品优势在越来越弱因为孟加拉对吧然后越南然后包括土耳其就包括埃及其实有非常多地区会接触中国的这些所谓的低端产品的市场

然后那会儿我觉得一直在想说到底什么是中国能够出口中国非常有优势的产品到底什么是中国的日本马桶店这样的东西所以那会儿我就无意当中刷到了国内在办 AI 的 Hackson 当时是 Segment4 在办我当时就特别羡慕就是国内都在搞 AI 了我还在这去卖假发

假发其实某种意义上算电商行业了我确实在公司里面也在大力的推广说我让这些大家无论是做 SEO 也好还是做商品相亲也好大家就把 GPT 用起来去洗杆也好呢还是说润色做翻译然后包括 Mate Journey 可以做一些图片的一些处理什么的我其实在非常大力的让 IT 让整个组织去完成这种转变但是我发现还是蛮困难的阻力很大很多人并不是说你工具喂到嘴边他就用起来就

以我的观察就是这件事的组织上的阻力还是很大的去年我一开始我也是对 AI 不够了解因为我确实很多年没有写代码了因为我都是变成陈总了主要是喝茶我办公室连电脑都没有所以这个过程中我一开始是打了非常多纯软件的 hackson 就是去了解什么是大模型然后这个过程中

不断的去理解就是这些技术的边界是什么从一开始我们对这事有非常大的泡沫的一个想象然后到我一开始可能也做过一些像招聘的这些这种工具就帮助你去面试的帮助你生成面试题的然后还做过一些偏社交类的社交类的我还是我挺关注的一个话题我还做了蛮多场跟社交有关的这种

然后还做过一些关于人类组织的就是因为当大家在谈超级个体的时候总想说我当老板然后雇一队 AI 去帮我干活然后我说那我反过来就是我让一个 AI 当 CEO 然后他来指挥一队人类干活

做过蛮多不同的一些尝试然后当然从今年开始今年我只打了三场 Hackathon 然后全部都是在围绕着硬件因为可能在逐渐这个过程中我发现我在软件领域里面的认知可能不如我在硬件这么多年会沉淀一些东西我觉得结合起来能让我自己变成更舒适的一个状态所以我记得

我记得你做社交挺有意思就当时你做过一个就自己去爬虫有点类似于有点有点像社会工程就是人肉搜索一个然后看这个人的喜好是什么然后给你给你出建议对吧我印象很深刻是那个项目你可能现在想要创业你想要创业的方向就是跟硬件结合呢你觉得什么东西触动了你一个是我确实不太懂互联网

就因为我过去十年并不是一直在互联网领域互联网领域里面大家天才也非常多所以我觉得我在这个领域里面并不是很擅长的人然后后面我其实逐渐的会去洞察说当我在跟一堆朋友一堆这些大厂产品经理在一起喝酒的时候可能会有一些话题是在我在谈论的时候大家在倾听然后有些话题在谈论的时候似乎好像大家觉得它只是一个很基本的共识

对然后我才理解到原来我对于三电就是电动的轮子这件事是积攒了非常多的认知的

所以三个星期之前你最近一场 hexagon 其实打的是一场你当时展示一个轮椅对吧我觉得你可以跟大家介绍一下这个轮椅其实是老化这个方向是我还调研过蛮久的因为一个是我自己家人有既有糖尿病然后也有中风的家人然后我其实有一些照顾家人的一些经历然后这个过程中我也会有很多的一些感知然后整个是老化是我最关心的就是我倒不怎么关心轮椅这件事

然后因为这个过程中我看到了非常多从你早上一睁眼对吧你最简单的就是先去个厕所那你去厕所怎么下床这就是一个问题那下了床之后你怎么从床从这个轮椅上到洗手间又是个问题到了洗手间你怎么从轮椅上到马桶上又是个问题怎么洗澡也是个问题怎么下楼去上车又是个问题就今天来看我刚才说的这每一个问题都几乎没有解决方案在这样一个场景中有超级多的问题没有人解决

然后我刚好擅长喜欢和关心对然后所以这是我研究的比较多的但在讨论这个轮椅之前依然是我其实花了蛮多时间去思考说今天我们对于 AI 加硬件还是硬件加 AI 这件事特别像我们 10 年前讨论的互联网加和加互联网

或者以前叫 IoT 夹但这个事我觉得它有意思的是虽然看起来只是两个字的文字游戏的交换但它直接导致了视角的不同如果是硬件加 AI 它其实非常像米家的很多逻辑

米家的逻辑是我大多数的这些硬件比如说我一个电动晾衣杆或者是这样一个设备我本身是一个工厂然后我生产这个晾衣架然后这个时候米家只要生产一个小模块因为米家负责把这个模块的东西都给我做好且大多数过去这一波米家的 IoT 设备它主要就是开合观你不需要进行很复杂的逻辑或者是这些参数设置

这样一个东西我就让米家给我一个模块就行了我的公司里面甚至不需要有 IoT 的这些工程师

我只要把模块焊上去就完成了我跟他说帮我操作一下量价的开和关这个工作 2015 年 16 年其实那一轮就是在做这件事情我把万物全部加上一个 WiFi 和蓝牙的模组它就变成了一个智能硬件那个时候其实我们也吐槽过我连冰箱洗衣机然后电饭包

全部都有一个这样的蓝牙模块饮水机是吧然后它其实连上去就是一个开合观就像你说的很多时候当然我觉得它也有一定的基础的功能但是有的时候硬件加 AI 的这种思路其实就是我们经常能听到我们要用比如说要用互联网把所有的东西再做一遍

我们要用智能的方式把所有东西再做一遍今天可能就是用 AI 的方式把所有东西再做一遍这个就是硬件加 AI 的逻辑对吧对但这个逻辑里面有一个关键点是因为它的大前提是硬件本体你首先是量衣架本身做工质量然后对吧售后这一切做的班好然后你刚好加了一个 10 块钱这 10 块钱是智能的部分

但这套逻辑其实是让过去的玩家变得更好入局的一套逻辑它其实并不是适合创业者或者适合新玩家上桌的这么一个思路

因为你第一天开的量力架厂永远做不过一个 10 年的量力架厂对那再说说这个 AI 加硬件这个你是怎么思考的呢我其实翻了非常多过去对于加互联网和互联网加其实这个加互联网也是说你本来就有个店铺对吧然后你是店铺里面你就是个餐厅然后你加了互联网就是你加了一个外卖接口然后你就可以变成一个能把这个餐厅接入到互联网这个流通环境里的这么一个东西但如果你天然是一个互联网加的一个

你这个公司连办公室都没有因为你可能天生就是一个一键待发的这么一个模式或者你是一个网店的一个模式你从第一天结构上就不一样对但这波里面我在 AI 里面所看到的是 agent 这个东西的存在

到底什么是 AI agent 我觉得大家可能在定义上还有一些不同的理解甚至它的中文名五花八门有一种比较偏营销的叫法叫智能体比如 AI agent 就是 AI 智能体然后我们也可以看到国内的一些大模型的 APP 里面会有智能体商店也有一些翻译叫代理更像它原本的意思然后到底什么是

我觉得 Rex 可以给大家介绍一下对因为的确有非常多人会觉得说是不是英语老师对吧或者一个律师的角色就是这样一个角色是不是就是一个 agent 但其实在我看来那只是语言风格因为他只是用一个 prime 来定义了这个语言风格但我觉得大家对于 agent 的一个定义有一个分水岭是 atomist agent 就是因为去年提出来一个 react 架构这个架构意味着这个 agent 他不仅有思考能力他有反思能力

你只是告诉他一个宏观的目的然后在这个目的达成之前他会不断的进行自我反思然后推理出要如何去解决你的这个目的然后他也有记忆并且他能够去调动工具的能力去帮你去解决他

他的手的部分因为如果这只是一个语言风格的这么一个角色他会建议你去怎么干对你跟他说帮我叫辆车他会说那我建议你使用滴滴来完成叫车这件事对但 Agent 的最大特点就在于他他不仅是有嘴然后他甚至有手他能帮你把活干是的我觉得他区别于一个聊天工具的一个最大的差异点就在于他有这个 action 的能力

他是有执行能力的他不是说我只是在文字上建议你如何如何我是有手可以做执行的动作的包括调用工具包括实际上的一些完成一些实际的操作等等这可能是 agent 最直接的定义好的 agent 应该是不跟你多废话你跟他说你想干嘛直接说了一句坨然后直接把你干完了当然其实在背后他会自己跟自己聊好长一段好的 agent 应该是少说话多做事

所以 Rex 你最近的轮椅项目它就是一个 agent 家的一个硬件对吧其实整个思路既然如果从 agent 的这个来说整个思路就完全变了因为你思考的是说这个人群或者这个场景下他每天在干嘛或者他会有什么样的需求以及 agent 应该怎么去解决这些需求解决的过程可能再怎么去定义到这个东西上这次因为拆了一个比赛这个比赛它

可能特别有一个命题就是关于这个 mobile agent 然后这个其实也最近挺火的一个因为那个质谱不有一个 auto GLM 对然后可能好像哪家我忘了反正手机厂家我记得有几家发布了这个自动发红包什么这几个对就自动操作手机的这么一个东西我把 REX 做的这个轮椅的功能做一下描述我觉得还很好玩第一呢

他把轮椅做成了一个自动驾驶的一个东西就这个轮椅能够自动的去识别周身边的环境然后自动的能够去以很模糊的指令带你去任何地方比如说你说我想去阳台他就会自动的记住你的阳台就会带你过去然后第二个呢是

它这个轮椅其实是有操控你的手机的能力的是能通过这个服务器以及手机里的 APP 它去自动的去操控你的这个手机就是类似于刚才我们提到通过 Mobile Agent 的这样的一个架构它其实本质上是模拟手机上的截屏和 OCR 的读屏以及最后的模拟点击现在的手机都有这样的能力

以及第三个我觉得当时我觉得很好玩的就是 Rex 但是提到一个演示的一个案例就是说假设我这个轮椅识别到轮椅的摄像头因为它自动驾驶的嘛轮椅的摄像头识别到老人跌倒了对吧那这个轮椅这个 agent 能干什么呢第一他能直接打电话给家里人让人来救

第二个事情呢它能自动的去通过操作你的手机可能如果你家里是在智能门锁就可以直接帮你把那个门锁给它打开当时整个 demoRex 是那个满地打滚的在那里模仿还有戏剧性啊这个思路和当时能够实现的效果是我

我作为硬件从业者我觉得完成度也是很高的一个东西做手机的 agent 的那个部分有什么发现吗我觉得其实都还挺值得讲先说那个就是 mobile agent 的那个我是觉得今天其实在落地方面大家的预期还是会有点过高

我会觉得在工程落地上有非常多细节问题就比方说今天大家所展示的这种操作手机的能力它极大可能会被手机厂家因为安全性的问题这里面有非常多一些博弈的一些部分所以不见得很多第三方硬件能够去很好的完成这件事

对然后当然也有一种思路是像那个 Rabbit 其实 Rabbit R1 这个产品他们当年有非常多的想法是关于我如何去绕开手机去独立完成一些事所以他们选择了一种方式是在云端跑了一个模拟器去解决这个问题然后我之前有听他的分享是他们好像似乎正在做手机这样的产品了因为发现这东西绕不开必须自己用一个安卓来

来干这件事对这里可以插一下其实 Rex 你想要的功能就是质谱他们现在做的 Auto GLM 那个功能它其实通过对手机模拟点击的调用然后通过屏幕的识别刚刚开始做一些

这个 Beta 的测试吧那我觉得确实也是有你刚才说的问题就是它有一些系统级的权限它是绕不过去的所以也许这件事情的终局还是会有手机厂商来完成这个接口的开放或者是它提供一些

让你接入手机的 mobile agent 的能力这样的话你的轮椅的项目就可以接入它的里面来实现一些功能这个也许是未来可以比较有可能落地的方式落地的时候会发现今天就是非常多下沉的 app 其实有很多老年人他们用的 app 是我们都不怎么接触的有一些寄布类的对吧有一些看直播去领各种免费的小礼品的这种其实有非常多下沉 app 然后这些 app 的启动的时候有非常多弹窗和红包的这些

这些东西然后很多红包它的关闭按钮它是一个它其实不在红包的窗体里它在窗体外面然后而且是一个半透明的一个差

这个半透明的差我们自己都要找半天按照咱们的互联网法规是必须要有关闭按钮的只是但这个关闭按钮有透明度是厂家可以自己拿捏的甚至有非常多的他会在这个红包的领取按钮那写一个领取并关闭但这个就很语言技巧了其实你点了那个领取并关闭其实你是先跳到活动页但这些东西其实你让一个普通的老年人他在去理解的时候都会产生一些理解上的一些偏差他都会点错或者他也会找不到这个关闭按钮的半透明的在哪

其实在用 AI 的多模态来做屏幕的识别的时候同样有这个问题因为如果我们没有去专门的去调教育这个模型它也无法理解零取并关闭和右上角那个 X 因为那个 X 没有任何文本它怎么去理解这两个东西到底哪个叫关闭

所以我在实际操作的时候发现这类弹窗红包或者活动的东西是会被诱导点错的所以我猜可能到实际落地中还是有大量工作是要针对不同的 APP 去做一些调教但它的通用性就会相当程度上会下降

因为你完成那个 demo 也是 agent 他要在不同的 app 间跳一会进去打车可能打车就有他的营销信息但那个时候你要干的事情是这老人已经出问题了你要立刻马上给我把车打掉不要去干其他的事你有做什么工程上的特殊的优化吗还是说就一个一个 app 来做

这种定制的这种我一开始是使用比较通用的方式就是直接截屏然后 OCR 然后再用 ADB 指令去操作但是我后来发现其实还是在针对每个 APP 做至少在 prompt 层面上要用一些 futures 的这种方式

你要告诉他说这个 APP 它的操作逻辑是什么就是哪个地方是进商品页面哪个地方是加购物车然后结算的时候哪些东西要选哪些东西不要选才能比较顺的跑通这个理解但是这个事情就是如果下个月滴滴打车改版一下对会有问题你就得重新来搞一点对吧但因为这个问题其实人类同样是如果是一个普通的老人如果滴滴打车突然把整个操作逻辑改了

它依然也会有理解上的问题没有我觉得这可能就是一个基础模型的问题就可能没准之后基础模型本身因为一直在提高然后基础模型的搜索能力也一直在提高没准它可以去搜一下这东西怎么操作再来操作对所以我觉得长线来看不一定是个问题我也是这个观点经过一定的训练的模型比如说专门的 UI 的 agent

他应该就有能力学习了上百万个 APP 的各种弹窗之后他变成了一个弹窗的专家他可能比我们一般的老年人的反应会更快当然这个我觉得我们可以拭目以待那我觉得这可能在中长期看不是一个太大的问题对其实这个事情我觉得没有很遥远我现在确实已经存在一些 APP 我是看不懂他的界面是在干嘛了

我这个年龄我觉得学习能力还可以但是我对一些 APP 我第一次打开它的时候我确实是需要愣一会尤其是给 00 后玩的一些东西接下来我们要不要聊一下偏机械的偏 hardware 的部分要不我们从底盘开始聊一聊可以从执行器开始因为我是之前做电动滑板所以某种程度上算短途出行行业

然后因为做了几年然后在深圳沙井里面也开过自己的厂所以对供应链什么还算熟悉对所以一开始在做这个东西呢我当然就先想到了永康因为中国的这个所有短途代步的都要从这个地方生长出来我几乎从这个最早的这种电瓶车轮椅这些电机我全部都买了一堆回来然后全部都试了一遍

去思考说那如果回到当时我这个厂里面我如果现在要去把这个厂转型去做轮椅我应该怎么去开展这个动作然后后面呢其实坐着坐着呢有一天我在思考那我难道还要像十年前一样去开一个一样的厂吗就是从一个滑板厂变成了一个轮椅厂开厂真的是我想要的吗以及我为什么当年把厂关掉

对 我其实经历了非常多这样的思考因为实在是没什么利润当年一度到什么程度扭扭车就是平衡车我们叫扭扭车因为它是两个脚来回扭的长得像一个沙漏一样的东西没有把手的扭扭车曾经是北美的圣诞礼物里面的一个最最畅销的品类因为它特别适合圣诞礼物送别人曾经到什么程度 FOB 也就是装船的价格是 50 美金一台包括电池

就能达到这么一个价格它是两个无刷电机带着平衡算法带着控制板带着电池一共 50 美金就生产一台就挣个三四十块钱甚至很多很多厂是不挣钱的它是挣退税的钱因为锂电池出口的这个品类国家会给你退税退税其实退的钱还比你的利润还高

这个行业就卷成这个样子了今天的轮椅行业不见得比这更好因为轮椅现在从最低端的产品 1500 就能买到然后其实它的 BOM 的生产价格也就五六百块钱就能做出来

但其实五六百块钱也没啥利润对就是完全就走个量了但这东西它所承担的库存压力对吧然后等等的这些包括销售和这些管理然后你其实没有任何钱做研发了你只能就是简简单单的去复制这个东西而已对然后这个是我非常非常不想要再重新经历的一个一个过程那这过程中我就不断的去去思考如果它不是一个轮椅如果它是一个服务于你的 agent

然后那它应该用什么样的一个架构去做这东西所以我这个过程中我接触了非常多关于机器人尤其是 ROS2 的这个生态因为 ROS 是一个 ROS 它是一个这个机器人的一个中间层当然可能一两句话很多人不一定能理解就是你可以理解它是一个机器人操作系统

然后它可以让你去链接到电机链接到机械臂链接到摄像头视觉等等这些东西我其实是把 Rose 的底盘给它接入到了 Agent 里面然后这样的话就相当于把移动能力变成了 Agent 的一个工具所以对 Agent 来说如果 Agent 觉得你要去哪然后它就会调用移动能力把你移动到那

所以它还是一个非常偏软件的一个思路而不是一个硬件的思路去做一个产品相当于做一个电动轮椅的或者说一个电动机器人的操作系统变成了 agent 的一个下层的第二层的一个工具但这种结偶合它会导致一个问题是如果这个轮椅假设这个轮椅是一个四足

它是一个像一个牛或者一个狗的这么一个底盘它依然是说我觉得你现在要去洗手间我就让这个底盘把你弄过去至于底盘怎么把你弄过去其实是小脑部分干的事了它已经跟策略是分离的了所以这是 Rose 最大的魅力因为 Rose 是可以让这一切结偶的这个蛮好的这个确实有一点人脑的结构的感觉了

对然后所以我在轮椅我用的是宇树的机器狗的一个肩关节我拿关节电机去做了轮椅的电机对这是个非常奇怪的决策很多人是不理解的因为这关节电机挺贵的它肩关节要 1500

但我用一个永康的主流的电动轮椅的大功率的直流电机只要 90 块但他们的功率可能 90 块的还更大一些为什么你要用这样的一个电机是因为关节电机因为我在用直流电机的时候我坐着坐着就会做一个所有做出行代步工具的人都要干的事叫 PID 然后这个算法通常会用在平衡和电机控制方面因为你要控制电机的转速让你这个车走的直

对但我会发现我为什么花时间在调这东西但我突然发现就是搞机械狗的这帮人他们不调这东西对就是我当时很惊讶的是为什么这帮搞机械狗的不搞这东西因为我发现搞机械狗的那帮人根本不关心电机怎么控制的因为电机用模型在控制对就是对他来说这个狗有两条腿还是四条腿还是八条腿无所谓因为都是训练一个模型让模型学会去控制这个狗

而这个过程中他们完全不关心这个电机怎么控制的他只要把模型的这些输出接给电机就可以对这个事让我觉得很 shark 到我的哇就原来硬件可以这么做就我们只要定义模型不用管这些这在我看来它的可能性会极大的拓展就是如果将来这个轮椅它不是只有两个轮子会动比如它的靠背会动比如这个轮椅是不是还能把你扶起来因为很多老人他坐下沙发会起不来

因为有一些比如说有些北美它很多老人本身是很重的然后他们的沙发又非常的它不像咱们这种木质的沙发它很多沙发是非常塌的那种他一旦坐下去之后他其实自己很难自己站得起来如果这些产品它要衍生出这样复杂的一些机械结构上的一些变化甚至它怎么去辅助你洗澡等等等等

这些事是不是都可以用模型来进行训练而这个过程中我不再需要每一个电机再去调整它的这些 PID 的这些东西对这是我很看重的所以刚才提到永康的直流电机是无法被训练的是吗

对这是为啥我折腾了好多弯路因为我发现过去的轮椅它是不需要关心转速的因为轮椅你是靠人在用眼睛看这个路和人去操控这个手柄所以你是人在回路你人在完成了这个传感器所以你的电机是不需要去知道转速然后不需要知道这些编码这些信息的这里可以做一个科普就是最便宜的电机呢

它只会管自己的电流给多大然后按照经验它能转到多大的速度或者多大的功率然后稍微好一点的它就能告诉你说我自己转了多少圈我自己转了多大的马力圈这个叫开环控制和闭环控制一个电机要能够说明自己的状态它能说明的状态越清楚越精准其实它就越贵它的成本也就相对应的越高精度也越高

在精度也就越高有一个点我听了是挺有共鸣的就是说为什么要把底盘和移动的模型这件事情去解偶开某一天你产品要迭代你要换电机了或者就是说你换产品架构了你一个模型就废掉了但我觉得这里面最有意思的是倒不是解偶所带来的这个共鸣上的替换或者这样我觉得特别有意思的是因为当这些硬件被抽象解偶之后它们是可以被降维描述的

怎么来理解这个相位描述呢就是我突然可以用语言去描述我要怎么控制你对就是我可以用语言来描述你的左轮现在因为你的左轮感受到了赌转被一个什么马路牙子卡住了那这个时候该怎么办那我可以继续用语言去描述那你现在把扭力加大一点用比较慢的速度但是扭力很大然后来越过这个障碍试一下而这些描述是可以被语言化的

那也就意味着我可以让语言模型来去生成它的控制指令对而这个底盘因为它可以去读取这些指令然后来完成这样的指挥

就这件事是之前我们做不到的因为之前我们只能写一些非常固定的一些操作方式这里其实涉及到之前我们老说的一个概念叫做巨声智能的巨声化就是它可以用语言描述的方式去感知硬件的工作状态并且可以继续用语言描述的方式让这个硬件去做相对应的动作去做一些新的一些动作出来我觉得对于很多互联网的人说你可以理解成因为我们的网页的这些前端对吧它也是用描述去渲染出来的

对其实同样的就是因为大语言模型也可以生产出整个前端网页的一个排版设计这些交互这些东西对它同样是可以用这样的描述和编码去完成对硬件的控制而这一切是灵活度超级高的

其实它的可能性也会变得非常多因为你通过写死的程序对吧就像刚才 Rex 讲的我某一个轮子受阻了我只能通过写那么一二三种也许三种都算多了的解决方案比如加大扭矩或者往后退一下像这种很固定写死的方案

那就有点像早期的所谓的自动驾驶的一些早期的技术你可能只有一个比如跟车的能力那个时候叫 ACC 自适运巡航可能它就是以一个固定的速度和间距跟着前面的车走

它就是一个写死的一个规则然后可能有什么车插进来它在有什么样的反馈有了大圆模型有了大模型的这种引入它其实就变得灵活了很多它有了很多可以被不在你之前学习范围内的一些情况当它遇到之后它会有一些正确的反应我觉得这个就是

我们接下来我们可能就重点聊一聊这块就是所谓的巨声智能在整个机器人这个领域里面我们可以聊一聊包括 Rex 在做轮椅的过程中我们刚才其实已经看到了它的价值我觉得这次还有一个很有意思是多摩泰的一些尝试因为我们印象很深是去年其实大家在讨论端层模型端层模型但我觉得去年大家讨论的是一种想象就未来我们的手机可以跑端层模型未来我们怎么样怎么样

但今天其实端层模型是一个非常普遍的事就无论是手机上跑还是你的电脑上跑然后尤其是现在这种嵌入式的开发板上很多嵌入式开发板都能跑到 10T 到 100T 这种算力其实可以跑一个非常不错的一个多模态模型然后这次我也是在这个板子上面就跑了一个 7B 的一个视觉的多模态模型有很多还不一样的理解比如说我之前玩多模态我一直是不敢敞开了跑

就是你是不敢在那开两个小时多摩泰的因为他那个 token 就上天了

因为动物态还是比原要贵就贵很多但是我发现当我写了一个死循环就我真的让这个摄像头因为它只要算得过来它就一直跑差不多可能 5 秒钟到 10 秒钟会跑一次很慢推理很慢但是它真的是只用电就可以无限的去开着然后这个时候我发现了它涌现出了一些东西出来就是如果它能够一直再去观察它会提供非常多信息是我们之前所忽略的

比方说像唤醒词这个东西我们今天非常多的这些 AI 的硬件还在思考要不要有唤醒词尤其比如汽车上面我们经常会演示的是那种一口气说一串指令对吧就是怎么开窗调座椅调空调就特别酷一口气说十个指令然后都执行了但你真实场景中因为汽车是个非常封闭的场景你如果这是一个公共的场景比如你戴在身上的那你周围就会不断的误触发达

这种场景是不现实的所以比较好的还是说你得有个唤醒词你通过我的唤醒你再去接受我的指令这样他就更可控一些尤其他要去帮你做执行这件事多么太的引入其实会引入非常多比方说如果我的凝视这个行为就我在看着这个摄像头其实对于这个唤醒来说我如果看着你在说话和我不看你在说话它就某种程度上可以取代唤醒词的存在

对还有像我在做的因为主要是一些疾病和跌倒的一些出发就给你打电话什么但我发现比如像很多哮喘之类就是你是那种对吧就哮喘这种动作你用 ASR 它是识别不出任何文本来因为它不是语言对那这种情况下怎么去判断你现在是有问题的呢对就这件事它只有多么太冒险可以做

所以在我看来多摩泰未来会从这种无论是你的这种声音这种声音不是语言的声音你的这种呼吸声你的这种尖叫声然后到更多跟硬件结合的你的这些座椅的压力等等其实博士的动力有一个案例特别让我觉得有意思就他们那个机器狗后来去做巡检去了他工业巡检里面是经常会买他那个机器狗

它有个应用是通过听声音来判断这个电线有没有问题因为他们发现很多非常有经验的巡检工人他只要走到配电箱旁边这个配电箱只要里面有一些接触不良或者一些元件老化他能听到电流的声音然后他通过这个声音就能够判断这里面会有问题

它是不需要去打开那个箱子的对然后所以他们就把这种特征也训练进去我可以问一下你的多模态的视觉模型用的是哪一个吗我这次用的是面壁的小钢炮就是 mini cpm-v 然后我还混合用了千问 vl 的一个模型然后那个差不多 70 多币那个是在云端的

它混合起来用的就是因为你可以先用小模型来做一个触发因为小模型觉得不太对但是它不知道哪不对对然后你再用云端的大模型再去细致的你再把更多的资料传给它我觉得这个是一个蛮典型的思路之前我们跟很多做 AI 创业的朋友聊天他们也是这样的思路就是端侧的小的模型

用来做基础的监测和触发然后发现异常之后它能搞定的端测搞定搞不定的就去求助一个云端的一个大的模型来解决其实即便是苹果的 Apple Intelligence 它的思路也是一样的它在端测一个 3.5 个币的端测的模型然后云端自己有一个苹果自己的一个云然后还有一个更厉害的 GPT-4O 挂在外面

那如果一二三第二步也解决不了了它就会才会出到这个 GBT 的这个服务器上去解决你是怎么让端测的这个模型知道自己什么时候要去调云端的模型你算法上可能会判别一些类似知心度之类的一些东西我不知道是不是这样的思路它其实不需要很复杂的算法就是因为你自己是知道它的这个模型的体量的每个模型它依然是一个 agent

然后你就把调用更大的模型作为他的工具对然后你直接帮他分好就是哪些活是你能干哪些活是你不能干就比如说这个小的模型你就去检测这个人是不是看起来不正常但是哪不正常你不用管 OK 你只要觉得这个人不怎么正常我用了一些 fuschart 的一些 prime 去定义说比如这个人他如果坐在地上趴在地上躺在地上就是是不对的就他应该正常是坐在椅子上或者站着

对就他只要在这种很粗刻力度的地方但如果这时候你觉得这个人不正常了你就调用一个工具而这个工具其实是调云端接口明白对这是蛮典型的 agent 的场景就是多个 agent 协同云端是一个大 agent 对吧对是一个更厉害的 agent 两个 agent 其实构成一个协作的关系对包括这个就是跟你对话的和视觉的它也是不同两个 agent

对因为跟你对话其实它主要是跟你说话然后它的 Prom 里面有非常多语言类的一些修饰的一些东西因为它有更多塑造工具的使用然后它的对话的风格所以对话的应该是一个云端的模型是吗

对话的 ASR 我是使用一个端测的一个 Vosk 的一个小模型因为它要处理唤醒词什么这些东西所以它更端测去跑然后推理部分我是用的是云端的一个千文的 Plus 因为那个千文 Plus 对 function code 的能力比较好是所以整个这个轮椅一共用到了几个模型啊

还挺杂的吧就是 ASR 是一个然后推理是一个然后语音合成是一个语音合成是在云端做的因为云端它音色更丰富一些然后视觉检测是一个然后视觉检测端测一个然后云端也一个对就还挺杂的

所以整体来说有的模型比如说像 ASR 这种其实它还是比较轻量就是它还没有到需要硬上 transformer 这种通用的模型的这种程度对吧它还是一些相对经典的一些东西你是通过一些算法的一些数值之类的来去让他们互相去调用来去互相做流转和判断但是类似于像你说的那个端侧小模型来判断人正不正常之类的一些东西你就把

说白了你就让模型之间谁该干什么活你就让他们模型之间自己用 promp 的自己来决策就好是这个逻辑而且语言这块我觉得它现在我们用的所有的这些 ASR 和 TTS 都可能是临时工作因为非常端到端的语音类的模型很快就在路上了我猜明年可能大家就普遍的可以用得上所以前面的这些工作前面的这些工程类工作都会被推翻掉了

对端端端已经有了但就是很贵贵嘛就是因为现在是开 sok 去处理那你工程实现上你觉得让多个这种模型互相协调尤其是像这种都有泛化性的小模型和大模型互相协作你这次有做什么特殊的设计我觉得主要的协作就两个 agent 就是一个是视觉的一个是对话的然后视觉那个它的特点是因为它是一个它的主线是它的视觉的周期对然后这个时候你让他去说话的话如果有两个人同时跟你说话他们会抢话

因为他们会分不清这个顺序什么的所以我反而把它变成了说就这个对话的这个 agent 是一个主 agent 然后这个视觉检测的它是一个次要的然后这个视觉检测的它一旦发现它需要比方说它发现你摔倒了这个时候它它自己是不能直接去决策要怎么办的

对然后所以他是用一个回调函数去告诉主 agent 说我看到这个主人在地上有问题了然后而且我叫了他三次他没反应他把这事作为 prime 传过去他其实就像就像你发了一个 prime 一样去传过去了而你的这个主 agent 是可以推理的因为他的推理就变成说这个人打小报给我说我的主人躺在地上了然后他就会推理说那我现在打电话所以这个主 agent 要是一个最厉害的云端的大元模型对所以我才用的是千问的 plasma 然后

我觉得它也是一个作为一个接待员未来我们能引入的模态甚至还包括触觉因为我觉得对于硬件来说它跟真实世界的接触的传感器维度天然就要多很多无论什么形态的硬件然后这些数据

都可以作为多模态的一种补充它既可以是用原始数据被训练进去它也可以用语言来进抽象化比如说假设这是一只玩偶然后这个时候它头顶有一个触摸传感器它其实你这个触摸传感器在被摸的时候它可以以语言的形式说我的头被人摸过对它是被抽象成语言的所以在我看来它的上限非常高就是我们今天远远没有发挥多模态的这些价值

我们其实之前在节目里面我们也聊过多么太多件事啊因为当时我们其实更多是就语音这个模态

做了比较深度的去畅想因为就像你刚才说的比如说这个哮喘病人在喘气的时候的这种声音它其实不属于一个语言但它其实是语音的一部分那像这种纯端到端的模型它其实包括多模态真正的多模态它不是一个把语音转化成文字输入到大圆模型再输出的这种方式的这种纯真正的多模态模型

它是有机会去辨别不同的声音实际背后的含义的对对它甚至在输入和输出端它都能做到这一点就是一个像 GPT-4O 它在输出的时候可以唱歌可以快速的数数可以喘气可以这个说话的时候会喘不过气来那这些其实都是需要真正的

多模态才能做到的那这个模态其实不光是语言其实刚才 Rex 给我们讲到的像触觉视觉然后语音然后多种的模态如果我们能够把它作为完整的输入去训练一个综合的模型出来

也许这个模型就真的是所谓的世界模型它可以解决真正很多不同层面的问题因为刚才 Rex 提到它的这个项目可能用了七八个各种各样的模型去完成不同的 function 最后来完成这么一个项目但是其实大的这种模型的公司比如说 OpenAI 他们其实很少用模型群组来解决问题他们还是在做模型的机座的能力的提升我觉得这个其实我觉得也 make sense 就是

当我的基座模型的性能和能力强到一定程度比如说它就是一个从触觉到视觉从听觉到嗅觉甚至有嗅觉都完整的这么一个超级大模型一个世界模型它其实我觉得 REX 这个项目可能就接它一个就够了是的我同意未来是会这些模型会整合的就是一个模型会完成所有的这些工作

对因为多多少少呢你在你这种这种不同的模型说哎这个老大我我这边发现他摔倒了然后另外一个模型说哎我听到了这个声音好像也不对劲然后那个模型说哎他还是有一个反应跟响应的这个次次序嘛但是如果是一个完整的模型他就像一个超级 AGI 一样他可能就

发现摔倒且拉库里了而且没有声音了这个时候我就赶紧把它抱起来打 120 我同意这样的就是这样的工程是临时的对它不优雅一个协议三的这个东西想聊聊吗

不是它是个小彩蛋了因为涉及到帮你开门锁这个事对它是一个无论从安全性还是什么的这些也提到说假设它能够假设它现在非常危急的情况下你现在就是中风了对吧然后你可能 20 分钟内如果你得不到抢救你人就走掉了但这个时候它能不能打开闲鱼然后

在上面发布一堆商品叫我家在哪谁过来救我我给你一万块对就像这样离谱的事但因为他急切有能力做到这样的事对那这样的事能不能被授权做

我觉得这是一个挺值得被讨论或者挺有意思的一个东西因为协议三是一个有一个游戏叫泰坦降临泰坦降临里面反正就有个机器人然后那个机器人他所受到的最高指令就叫做保护铁域铁域就是你这个玩家他以这个为他最高优先级包括牺牲自己他能不能通过把自己的电路短路然后引发一次火灾来让火警救你

就很像阿西莫夫的三经理最高的要求就是要求机器人为了达成他的目的他就不择手段对吧对所以就在我看来因为他可以操控一个如此大功率的电机的情况下他完全有能力自我引发一次火灾我觉得 Agent 他能干的事有很多是我们今天可能还想象不出来因为他所推理出的解决方案有可能是超出我们的想象和道德想象的

对所以现在像智普他们的这种手机端的 agent 他能做很多事但是所有的最后确认的那一步都是需要人类来完成的比如说支付比如说确认发送那一下要人类来按下去他自己无法完成支付的过程因为大部分手机比如支付都是需要生物信息的指纹或者是面部识别等等

多模态这一趴大家聊的应该蛮透了我们都认可多模态模型可能就是未来但是现状可能我们需要还是需要多个模型的协作来完成一个 agent 或者一个智能的 AI 设备的整体的使用和控制

那么说回我们想聊的这个主话题啊巨声智能因为我觉得其实这个轮椅某种程度上就是一个机器人嘛对吧那 Rex 也用了机器人的操作系统用了 agent 去控制它那其实这里面也涉及到了巨声智能的概念对现在这里回顾一下就是我们关于巨声智能的几期历史节目把最近这一年的一些几个核心进展都已经 cover 掉了

一个是刚才提到的这个多模态的这个问题多模态其实最早我们讲的时候其实是当时谷歌有一个叫 PalmE 这个成果就是说大圆模型能够把传感器也作为一种模态的数据就读进来它有了多模态能力之后它又能推理放话了说原来一个机械臂你让它去拿薯片你必须很明确的定义出什么是薯片对吧那现在呢它就告诉机械人说薯片在抽屉里你帮我拿出来

或者说甚至到后面就不用说储片在哪了机器人自己去拉抽屉了相对于这个机器人自己的动作你就不用去描述了对吧它就实现了一个泛化性很大的一个提升那在此之后呢我们其实在今年一月还聊过一期一个慈善福很棒的一个研究叫做 Aloha 这个 Aloha 呢它是解决了几个问题核心呢他们是能够实现说依靠远程操控就是一个人远程操控

远程的类似做机甲战士那样去操控那个机器人那个机器人就能帮你去炒虾子做菜之类的一些事情以及也能通过这样的摇操作的方式让机器人学会一些简单的动作比如说按电梯之类的所以整个的放话性也就会进一步的提升这个项目很大的一个亮点是它把城门给打下来了它就用了一些标准的一些器件

大概是原来 50 万美金要干的东西现在两三万就能就能去干了所以说整个摇操作和一些基本的叫动作克隆吧或者是类似一些让机器人来模仿的一些学习会是今年的一个重点上一次关于巨声震荡的节目也提到谷歌的

这个叫做 Robot Transformer 这个组里面他们做了几个成果比如说通过看视频的方式就能去学会这个机械臂应该怎么动他就看一个 2D 的一个视频他就能大概把那个机械臂该动作这个动作参数给他实现出来那就有很好的泛化能力然后谷歌在数据采集上他们大概搞了 20 台机器人吧搞了 20 台机器人呢他就能实现就是说这个机器人走到一个厨房面前

然后呢他给你给他一个核心指令叫做清理这个厨房然后这个机前就和类似于自问自答的那种方式就是不断的去扪心自问啊他就把每一步的动作拆解拆解拆解不断的拆解到这个机前能够开始动作开始自动的开始去做做动作的这个状态

所以他们用这样的方式来去收集数据集相当于也是把整个数据收集的效率也给他做上来了然后最近的两个明星的研究的话一个叫做 DOBBE 还有一个叫做斯坦福的 UMI 一个项目呢是用一个 iPhone 配一个小夹子另外一个项目呢类似于人手操纵的一个小机械爪前面再配一个相机就这样的话呢就把数据收集的整个的

链路的成本给打下来了所以总体来说回顾过去这一年其实核心的能力提升一个就是泛化能力有提升第二个就是把这个数据收集的这一端就是怎么样收集能给机器人用的这个数据现在好像学术界看学术界的这个意思是解决的差不多了因为刚才说的这几个项目其实都是端到端这条技术路线的然后我是整个端到端技术这条路线的反对者对

我觉得几个点我们先从端到端这件事为什么大家开始关注我觉得特斯拉在其中起了很大一个推动作用很多人是因为在汽车领域发现端到端的落地还不错所以会觉得说端到端是不是能够去大力出奇迹的解决一些问题但我为什么又不太认可端到端是因为我觉得端到端在

原理上包括今天大家遇到的非常多的问题就是关于数据的过拟核问题我来举具体的例子比方说我们现在训练特斯拉的拿电池经典的工作你去从传送带拿一个电池放到盒子里如果你找人类来进行施教因为刚才我们说这几个项目尤其 UMI 其实他们都在解决更低成本的人类施教的问题但如果你雇一个人去做 100 次拿电池这个任务

这个人的前 10 次数据是非常有效的因为这是前 10 次他有可能会把这电池拿了之后滑了对吧然后或者放下去的时候放歪了然后他因为他把这电池放歪了所以他会有一个 recover 的过程他要把这个放歪的电池再摆正而这个数据是非常有效的因为他把一个出错误的状态恢复到了一个正常状态下但是当这个人从第 10 次到 100 次这 90 次因为他已经熟练了他变成个熟练工而熟练工是不会犯错误的

这个时候它的剩下 90 次全是无效数据因为这 90 次全是正确数据这些同样质量有效的数据其实会产生数据的过拟合因为它不再能提高训练的效果了但这个时候你会想说我能不能刻意表演出 90 次有效的数据比如说你这剩下 90 次你故意把它放歪然后故意再把它摆回来这就变成一个非常难的问题是你剩下这 90 次不能有重复

然后你要去想象出我怎么用 90 次不重样的形式来操作电池的摆放成了一种智力上极度高的要求你完全不能顾一个普工来干这活了所以 Rex 你担心的是这种端端模型的训练级的这种稀缺所以你觉得它可能训不出来是吗好的训练级是这样的就是这个端到端的它很重要的一个思路包括刚才我们为什么很愿意强调

比如 D-O-B-B-E 的那个模型他为什么用一个 iPhone 加一个那个量一高的那个夹子就能去收集数据他本质上是把是把一些只需要能够完成一些简单体力劳动的人作为了那个数据来源他把人作为了数据来源然后呢他解决了最低成本的从低成本的人身上拿到数据来源这件事情

但是如果是按照 REX 的这个逻辑来推演呢其实他就会出现一个问题就是说你让那些人去叫做什么针对性的穷举和构建一个有效的数据集这在现实世界当中几乎是不可能的

对因为这些人他能提供我们所想象的他们能提供更多的时间来产生数据但实际上我们需要的不是更多同样的数据我们需要的是更多我们需要更多差异化的数据确实对而这些差异化你如果要去用智力去设计它它需要的智力极其高就变成你必须要用一堆博士去完成这样的演示大家可以想象一下今天你把你的衣柜里

拿出一件 T 恤来然后你想出五种折 T 恤过程当中会遇到的问题你就会发现这个事其实很烦对他勾住一个东西对所以这么说的话其实自动驾驶确实是一个很好的做登当的场景因为他的训练级足够优质我们可以想象一个场景就是假设现在这个车他翻了他不小心立起来了

对那这个场景在他原本的训练数据里面因为他 99%的数据都是在正常路马路上开对他从未出现过这个车突然翻过来立起来这个情况对那他要怎么把自己给他放回去

对就这个它的数据但是我我觉得其实自动驾驶的好处就是它确实还是有足够多的数据量就是我认为它还是偏大力出奇迹那个方向吧因为好像当时 FSD12 是用了一点几亿公里的人类自己驾驶的这个数据的视频作为输入来让他判断这个过程应该怎么开

我觉得在汽车这个领域还有一点是因为汽车其实只有两个 action 变量就是它其实只有一个油门刹车油门刹车其实它是合在一个变量里然后方向正 100%到负 100%然后方向盘的左边负 100%到正 100%所以它只有两个变量就可以完成汽车的整个驾驶工作

自动驾驶是一个我们认为很复杂实际上它是一个相对机器人来讲尤其是我们想象我们在面对一个人型机器人它的自由度它的可能性的差距可能不是一个量级的今天我确实可能聊到这里我才意识到这一点就过去我们认为自动驾驶是很难的因为它要面临无数种不一样的情况对吧但实际上对于驾驶者来讲你只需要处理方向和速度这两个变量

确实是这样然后大部分的驾驶的环境是一个高度规则化的环境就是大部分的情况下会有地面的标识线有明确的驾驶的基本的规则当然也会有少数的变量而这些变量就是可能我们过去认为它比较难的原因但是现在看起来

用端到端来解决这样的变量从目前的反馈因为我们看到海外的特斯拉国内的理想他们在快速的用端到端的训练训练出来的模型投入到实际使用之后的效果都是不错的

但是所以我们可能当时就想当然的觉得说也许在巨神智能这个领域端到端也是一个好的解决方案昨天我听了一个分享是关于这个 Fast UMI 的然后他是国内的一个团队在做这个这方面的一些浮现和一些这个训练然后他们就发现一些问题是当我在一个训练房间这个墙面是白墙的时候因为这个墙面它就非常缺乏这个特征物

对因为你的背景全是白的然后这个时候你又开了一个电冰箱门因为电冰箱门属于一个它特别大因为在一个机器人的视角里这个门几乎就电冰箱门就几乎占你整个画面的 90%了对所以你看到的是一个 90%的一个白色的画面和周围的白色的墙你的特征点是非常稀少的然后它整个训练质量就会变得非常差它的训练能力还有一个问题是它可能没有办法跟上算力的增长

我们想象一下如果在三年之内老黄能让整个算力加三个零对就今天的这个算力后面再加三个零我觉得老黄他是有可能可以做到的三年对他不是一个在人类的算力增长上面是不可想象的事儿

但是一旦当这个算力涨了三倍我们用这种端到端方式能产生所以我现在看到的就是在机器人巨声智能这个领域的训练级的问题可能仍然是最大的问题一方面它的复杂度远远大于自动驾驶另一方面它的训练的这个量级远远小于自动驾驶

当头端还有一些挑战是关于我举个例子比如说环境光照就是我现在在这个房间里面如果这不是一个工厂因为工厂是可以完全没有窗户的全部都是人造光但如果这是个家庭场景它是有窗户的而这个时候早上的灯光和夕阳的时候的这个光照和晚上的时候的人造光照它是完全不同的虽然我在完成同一个任务那这个时候其实我的训练数据要涵盖不同光照情况下的这些同样的场景

对那人类怎么去模拟这些不同的光照甚至在夕阳的这个变化里面可能每 15 分钟整个的这个色温什么都会产生非常剧烈的变化我现在能想到的解决方案可能是当我们算力多了三个零那我可能就用所有人类的监控摄像头的数据去喂一个大模型就让他看这些人是怎么操控自己的手啊脚啊

这些四肢然后他再把自己带入到里面去当然这个就纯想象了但那可能就不是端到端了因为那个是基于对这些人的

就是行为语义上的理解再去对那个我猜可能未来别的他就不是基于观测学习的学习方法动作的几个舵机的位置了对吧因为端端端主打的就是这个视教和大力出息视教的意思是演示教学哈在机器人行业里呢就是就是人类给机器人做了个动作示范在自动驾驶行业呢就是呃人开车的数据被机器人学习被 AI 学习了就变成了 AI 的行车风格和行车的动作嗯

如果是这个逻辑来说数字完生那这条路好像现在听起来又挺性感的了对因为我个人是无监督学派的支持者然后尤其是强化学习因为在强化学习里面你是完全靠虚拟的场景来去生成式的我可以生成出十亿个不同的厨房

对然后不同的材质不同的光照然后这些东西都可以被大量的虚拟化然后我是在这种虚拟环境中去让他自己去衍生出这个拿这个东西的这个动作而这个拿的动作里面我可以随机加入十一种不同的干扰就是打滑对吧然后不小心各种外力各种东西对所以他所生成出的这个数据的空间天然就会大很多 Rex 可不可以解释一下什么叫无监督派啊

监督派就是说你的考试是有答案的我是有一份试卷但是我有正确答案然后我是按照正确答案去教你然后我也是拿正确答案去检查你的作业但是无监督派就是我其实没有标准答案但是我只给你一些条件什么叫做成功了什么叫失败了

然后我靠奖励函数和惩罚来让你自己去探索出结果来对就是这个世界中有非常多东西是没有标准答案的比如说其实 OpenAI 在成立的最早成立的时候它根本就不是搞语言模型的 NLP 只是 OpenAI 的一个很分支的业务 OpenAI 在刚成立的时候最主要的工作是做一个玩魔方的手大家可以去搜一下比如说 OpenAI 在刚成立的那几年他们在做的事情包括你可以去 YouTube 上看一下他们早期的发的一些东西就他们都在研究那只玩魔方的手

因为玩魔方这些手势没有办法用答案告诉他怎么去玩所以现在在机器人这个领域用无监督的这种方式来做强化学习的方式来做机器人训练的主要有哪些代表的品牌或者厂家今天主要集中在下肢就是腿这件事上然后比较典型的一个是足迹动力

然后他们是做了一个两只腿的一个双足的一个机器人然后他们也做轮足然后他们是前话叙述这一派里面做的非常好的这是国内的厂商吗国内的对逐级动力所以在比如美国或者全球化的这些事业里面主要还是用的是端拉端的方式在做是吧因为今天的机器人行业把这个 locomotion 和就是上下之是分开的

就是做腿的是有一套策略和思路做上肢的这个机器机械臂是一套另外一套思路对然后做腿的基本上都是用强化学习这个流派了就刚才你提到的那个端到端会存在这个过拟核和数据收集的这个难题可能可能如果我们如果我们聊我们对于巨神智能的想象是什么就是一个行走的机器人在你家里面

能够帮你去做不同的任务对吧一会折衣服一会炒菜之类的那有可能过你河的这个问题是很大的一个问题但是如果你做的东西是一个只是在聚酸智能的概念下它是一个单一任务的它的数据集恰好是就是说你可以依靠真实的用户反馈或者依靠一些人的模拟可以得到一些高质量数据集的

那其实也可能有机会吧我觉得是这样是我不否认这条路线它只是有一些挑战但是我猜在一些场景比方说工厂

而且这个工厂是没有外界干扰的它就是一个纯机器人工厂然后它的光照也是完因为这个工厂没有窗户对吧然后它所有光照也是人工光源那它的这个训练环境和它重现的环境是完全不会受到干扰的因为这个机器人也是在一个铁笼子里面干活对那其实端到端的这个效率有什么呢没准可能还更高我这想起现在流行的讲这个智能化高的工厂叫关灯工厂

那也许未来这种基于视觉化的机器人成为工厂的主力的时候可能高质量的工厂得开灯了他需要让摄像头有足够的光源就不能关灯了因为过去关灯虽然智能化很高它其实不是智能化很高它是自动化很高

它其实整个过程是自动的在这个流水线上搞定的所以它关灯就搞定了那未来如果里面走来走去巡检的人从这个人类变成了机器人这个机器人又是通过视觉模态来完成一些基础操作的那这个灯又得打开了

这个灯要求还很高显色度要很稳定对而且它训练的环境可能跟灯的色温还得保持一致有可能也许我们可能家政机器人按照刚才这种说法可能我们又得再等一等了因为过去我可能更乐观一些我觉得巨神智能让我们家政服务机器人可能就不远了但是今天聊下来看起来理想和现实差距还是有的确实我仔细想了一下这种

如果按端到端的这种方式我们可能很难有类似自动驾驶这种高质量大量的这种训练级去完成一个家政继续员需要的训练可能也也许要用其他的方式就是我现在能想到的就是学习所有的人类影视作品加监控摄像头全部学完你大概就知道这个人应该怎么炒菜应该怎么在厨房里工作等等扯远了我们先说回来

所以我其实想这里聊一下就是说巨神智能或者机器人行业是长期存在需求和实际落地的错配的两年前我去看过给工厂里面做这种仓储的机器人我发现普遍这些公司都赚不到钱普遍这些公司这些公司核心的诉求是拿了几轮大融资之后然后缩亏活下去比如说我们看到的一些很好的所谓的一些什么

人形机器人上市第一股之类的一些公司就发现人家上市之后的明星业务叫做做什么智能猫砂桶智能猫砂盆然后就是就告诉股东我能赚钱了我就觉得就是这个行业就是讲故事你都是人形机器人就是很厉害你真正赚钱的东西绝对不是那个东西我们回看过去的这些机器人行业发展也不是完全没有比如说酒店的送餐机器人其实你不能否认它的价值

它只是价值没那么大但它多少还是有点价值然后像扫地机器人这个品类它也是的的确确让我们生活变得更好了所以我觉得可能只是我们的预期是一个产品直接就改变世界都是 iPhone10 个这样的改变但我猜可能它是一个漫长的过程它可能是用 10 年时间然后慢慢的可能扫地机器人有了胳膊然后可能一开始只有一个胳膊然后一开始可能也是一个夹爪它能帮你把一些垃圾捡起来

对它不一定是上来就是一个临桥手这样的一个东西对我猜这个是一个可能是一个缓慢的过程但这个过程因为 VC 的期待会很高所以可能也会有一些泡沫的一些这个节奏的我现在看到人心机器人都有点那个 PTSD 了我就觉得说这玩意又落不了地你天天吹它干嘛呢对吧

对从投资人角度看确实是哎呀真的我经常因为我们经常在一些硬件群里面包括一些讲投资的硬件群其实也有它里面就会聊到比如说包括一些研报说什么 AI agent 的概念股它列出了 20 个我都没有听过的名字

然后机器人概念股包括刚才尼克森提什么机器人第一股就是这个东西可能连零都还没到一可能零点一但是我感觉你去看那些给股民看的那些报告你会觉得这个事情哇靠马上就要改变世界了但是那些对就一级市场和二级市场两个世界对 AI agent 甚至还有

AI 传媒概念股然后你点进去看就是那些公关公司那些报纸就这些东西反正确实是如果是从投资人的视角看这个世界我感觉跟正常人看的世界还真是不太一样我反正在这个过程中我觉得很有意思的一个是开源力量

既然这个事它没有办法在一两年内被一两家公司完全垄断尤其是其实今天这些机器人公司融的钱跟当年自动驾驶融的钱不再一个体量当年自动驾驶大家融的钱多得多比现在这些所以它不是一个简单的用钱就能解决的问题既然如果没有办法一两公司在一两年内垄断这个生意

但是学术是不会停止的因为学术会一直去不断的探索和搞出一些新的方法来所以这些东西它搞出来之后就会流入到开源世界中其实跟今天大模型非常像你看大模型我们在前年的时候我们会以为 OpenAI 会一家垄断这件事对 但今天我们来看就是 OpenAI 我们完全不认为它能垄断而这些开源势力又变得其实也都 80 分对吧我们觉得很多时候不开源的东西完全够用

所以我觉得在机器人领域里面极有可能会出现今天的大模型的同样的事情就因为这些技术无法被一两家公司垄断和商业化然后但是开源社区里面它会快速增长尤其是像中国现在咱们有了国家盾比如像青龙机器人这样的

这样的开源的一个项目存在所以极有可能在两到三年之后这些今天融了非常多钱的公司反而跑不过这些开源的对你对青龙机器人的描述叫做可以像华强北一样提供所有的弹药对吧对我觉得我能看到的人形机器人或者整个机器人它真不是一个复杂的事

我们今天看到的人形机器人大家都把它做成一个人的形状但如果你从一个结构或者自动化工程师的视角去看这个产品非常的简单因为他就是用一堆结构件去把那些关机电机给它拼起来然后最后往上套个塑料壳装饰性的外壳就好了就从产品角度来讲它被拆解之后是一个非常简单的工程然后那就导致了一个问题就是

当这个东西的开源资料变得越来越多当更多工厂也发现原来这东西这么简单他们也可以去联合一些山寨的关机电机工厂因为关机电机今天来看也不是一个麦克尔很高的事有非常多的传统的做电瓶车的无刷电机的厂也在试图转型关机电机因为一甲空间大了非常多因为从 90 块到 1500 但是本质的东西没什么太大区别

基本在中国的这个产业产业链里面会有非常多山寨工厂然后每一个工厂都能传起这个机器人的一个部分对然后而这个软件的东西在这个漫长的过程中也会出现就是 3D 打印机这个行业当年有两个软件是特别特别有意思就一个软件叫 Malene 它是一个固件对它是一个这个 3D 打印机的一个

单片机的程序然后你只要把它烧进去之后因为它是完全开源的然后而且玩家群体里面有各种各样魔改的版本对然后你只要把它烧进去之后你就可以插一个 SD 卡上去它就可以把 SD 卡这个文件给你操控这个打印机打印出来你其实完全不用懂这个背后的原理是什么你只要会把这个固件用这个专门的软件点一下下载就好了对它其实跟刷手机的难度是差不多的

对那还有一个软件叫 Kura 然后它是一个把 3D 模型完成切片化对就是你把一个 3D 模型切片成切片文件然后靠近 SD 卡里然后这两个软件都是开源的对所以因为当年 3D 打印机这个领域也没有人垄断这个行业然后它也是一个有非常多小细节的事然后就是在开源社区里面慢慢生长的一个技术

对那今天我们还没有看到这个机器人领域的 Cura 出现因为今天这种做机器人训练的可能是像 NVIDIA 的这个高大上的这个 Omiverse 这些对这些训练软件然后特别开源的像 Mojoco 这些可能还很早期还是一个婴儿状态对但我猜这个过程中一定会生长出尤其是像中国有非常多应用的工程师

这些工程师既包含高达上的做互联网 APP 的也要包含非常多所谓上位机就是做那种 Windows 的 exe 的这种程序的工程师其实中国这类工程师非常多我们看很多这种野生的软件然后游戏外挂其实都是这些公司在做然后这些人一定是有能力去把很多开源的比如像 mojoco 这样的东西进行魔改如果这个时间被拉的够长比如他拉到 5 年以上

我猜可能未来就是在华强北就是你可能就在华强北你可以传一台 iPhone 出来吗

对 你就在华香北可以去东边买点关机电机西边买几个摄像头那边买个山寨的主板然后最后用一个开源软件给它一串然后这个机器人就站起来就可以干活了对 我简单介绍一下刚才提到的这个青龙机器人它实际上是今年 2024 年在这个世界人工智能大会上亮相的一款开源的机器人这个机器人身高 1 米 85 体重 80 公斤长得还挺标志的

它比较有意思的地方首先它是开源的项目第二它是由人形机器人上海有限公司自主研发并由国家地方共建人形机器人创新中心发布的也就是说它听起来像是一个国家项目

是由国家在背后传了一个局去把这个机器人从 0 到 1 做出来并且开源了从形态上看就是一个大家想象中机器人的样子一个刻板印象一个黑色的脸然后全身金属同时双足两只手然后还有五个手指是完全人形的

然后从官方的介绍来看它还具备五感就是视觉嗅觉听觉触觉以及姿态然后整个我觉得这个是比较符合大家对一个人形机器人的想象的这么一个东西至少在 WIC 上我觉得有一个硬指标就是谁家机器人能够脱离吊绳在地上走起来

对然后能在障碍物上走起来你不是在平地上走对吧我地上放一些随机的障碍物我觉得这就很简单的就是我觉得至少青龙在这一点上它是可以完全脱离安全架脱离安全绳在地上有随机障碍物的情况下去走路对然后大家就看结果嘛因为 WSE 上面有非常多是挂在那静态展示的

甚至包括非常多融了大钱的这些团队另外今天的青龙还是有一些成本问题就因为包括这个智源他们也开源了但你其实真的传一台也得十几万你不是爱好者级别就能够去每个人都能参与的但今天其实关节电机的成本在急剧急剧下降因为我一直非常关心关节电机的成本关节电机一定会在五年之内下降到一百多块钱这个体量

它的下降速度是大家难以想象的一个下降到这么一个体量的时候甚至大家不一定要去做 1 米 85 的机器人会有很多马楼机器人它可能是不到 1 米但它可能也是一个然后它也不一定有灵巧手它可能就是两个球形的一个手机器猫那种但它可能也可以完成一些搬运或者一些简单的一些东西或者更多还是爱好者会去照着 DIY

我觉得我们可能更早看到的是这些可能他只要花不到 1 万块钱的这些零件就能够去照着青龙的这些开源资料自己去复刻一个缩小版的马楼机器人出来我觉得这些关键的里程碑是我们值得关注的

我觉得成本的下降其实能够想象因为过去我们其实就经历了中国制造在过去十几年的时间里面把成本像这样的方式急速下降的很多例子就包括这种手机里面的一些领主件包括汽车我们看到理想汽车把它的空气悬挂的成本也下降了非常多其实简单的说就是这件事情只要有商业价值

它只要能够批量的大规模的生产它的生产成本我认为其实不高的它卖的很贵的主要的原因其实就恰恰是因为它没有用就在现在这个阶段只是一些公司在融资的阶段需要做几个 demo 出来的那种量跟我每个人家里需要有一台的时候那个差距其实足够把价格帮这个家人们打下来我觉得这个是肯定没有问题的

所以我们其实说了这么多机器人的部分因为确实大家对人型机器人的期待太高了我们还非常期望能够尽快的看到这样的一个设备有很多人畅想说家庭的就中产家庭的下一个大件因为现在的大件除了房就是一台电动车对吧

也许下一个大件可能就是你可能要花三四十万买一个人形机器人回家他来帮你搞定所有的家务这个是所有人很多人期待的是其实价格不是问题关键是要有用对是的所以有可能机器人这个事情接下来不是说哪家公司或者哪个投资基金就赚了大钱或者是怎么样接下来有可能是一些原来买摩托车的

比如说花 3 万 4 万买摩托车的对吧买一个什么嗯买一个露营车的就这种人

他有一天他突然发现机前他能传了完了那他就像那个他就像定制摩托车和这个传一个露营车一样他就把一个自己的机前传出来然后在这中间的话我觉得这个才是这个行业很重要的一个价值点的来源吧就是因为这中间你会变成一帮非正规军但是极具创意的人他会他会告诉你这个品类真正的需求是什么

他们会用他们的钱和经验去试错这个过程在四轴无人机和三星打印机上面都经历过其实很长一段时间买这些航模的然后买三星打印机的人也是这些所谓的 AliAdopter 科技爱好者然后你很难给他一个特别严肃的原因去买这个他就是买着玩他好奇对 但他买的这个过程可能也很折腾因为很多资料或者东西不好用对吧然后自己要去装有很多问题要去讨论

对我觉得极有可能是这么一个过程而这个过程中因为大家真的要去买这些套件要去买这些组件所以还是有一些厂家能够去在这个产业里面留下来大家可以去生产卖这个关一电机然后大家可以去生产去卖这些摄像头然后对我觉得可能他没准以这样一种路径生长出来的而不是一个高举高打的一个状态因为今天高举高打显然无法在短时间内寻找答案我最近经历了一个例子就是

我们上个月在那个 Make Fear 见面嘛然后我当时带着一位老同事的女儿去玩那个陪伴的机器人就是这种对话陪伴的机器人我的那个偏见很深了我大概觉得从十年前开始就觉得这玩意没有用专业没有什么帮助但是那一次我带着那个八岁的小女孩我带她去玩那个缝带毛绒玩具里的一个东西

然后连了 Chad GPT 有简单的这个对话能力的东西然后一下子就给我哇这个我最近十年我第一次看到小孩和这个一个机器人这么流畅的对话然后他产生的那种马上就产生那种想跟毛绒玩具拥抱然后继而产生的这种依恋

我觉得整个就被触动到了但是那个团队的背景其实很像我们今天刚才说到的就是他们不是正规军那个团队一开始他就是一个魔改语音机器人的一个个人开发者他一开始就是做了一套小的板子有一个语音机器人品牌叫火火兔

他就鼓励所有的用户说你把那个 Google tool 买回来你把那个板子拆掉把螺丝拆掉然后我卖给你一个小板子你把那个小板子接上之后他就能接上切的 GBTG 对话对我就是早期支持者那个人一开始他只是自己在

自己在推特上去发嘛然后对他最早还在 B 站众筹我就是 B 站众筹的人 OK 他现在已经变成了陈建志的一个小团队在做正经的产品然后而且产品已经能够很亮眼了就那是玩家变成正规军啊

的一个过程吧我确实看了之后还挺 impressive 的我不知道 Rex 你觉得除了这种陪伴的机器人之外你还有哪些品类你觉得是很看好你觉得接下来它肯定会跟聚酸智能这个概念有关系但是呢它不是人形那种高举高打的东西它会成为我们的日常生活中的消费品我觉得今天大家对这些的 AI 硬件的想象还是有点

有点想象不到那个基点临近的一个状态就之前一直在思考说旅程他做 Rabbit 之前其实他在用 GPT-3 做一个导演的一个软件对而且还有蛮多团队用 GPT-3 其实做了很多包括 ICT 他们做游戏类的这些我其实一直在思考就是 GPT-3 和 ChatGPT 就是这个 3.5 到底中间发生了什么就是有非常多团队就可能也就早半年对吧然后用 GPT-3 就会挂掉

对但是 ChatGPT 出来之后它就是直接就是一个 100 倍的体量的一个变化我觉得今天可能我们还是一个 GPT-2 的一个状态对然后因为它至少在有用方面还没有做得很好嘛但我一直在思考就是这个 ChatGPT 和 GPT-3 的区别其实它是多了这个 Chat 这件事我会思考这个 Chat 的时刻是什么就我们今天对于无论哪种形态哪怕他是早期机器人或者哪怕是轮椅

我们都很难想象如果当我们可以用任何一个人哪怕你是一个小孩你可以用自然语言去命令一个机器去完全按照你的方式去运转因为今天我们可能更多是一些指令响应似的对吧你跟他说什么而这个指令他本来有所以他能干对但是今天的机器还没有办法去我出场的时候没有跟他预设任何功能对然后但是我可以用自然语言去描述你要干什么然后他就帮我干

这个 chat 时刻是一个今天我们很难想象的一个临界值对但这个临界值一到就可能整个价值就完全重塑了就我们对一个机器人的价值就不再是觉得两三万贵而是像刚才说的两二三十万我们也愿意花是的我大概能理解 Rex 表达的意思其实就是 chatGBT 的那个 chat 时刻呢跟小爱同学的 chat 时刻最大的区别就在于

想要作为 Chad 时刻是什么鬼其实语音对话这件事情早就有了就好像聊天的 Bot 也不是 Chad GPT 也不是第一个对吧但是你会发现什么叫 Chad 时刻呢就是我发现我跟 Chad GPT 怎么聊他都能接得住的时候

当我跟他说一些我觉得很离谱的话他也能往下聊的时候这个时候我就整个就是一个崩灭的状态就是我就爆炸的这种震撼的感觉这个可能就是所谓的那个引爆点那刚才 Rex 讲的也很清楚就是什么时候人型机器人会引爆它应该还不是像扫地机器人或者是酒店的这种送货机器人这种单一功能的非通用的这种机器人它能够引爆

我们需要的然后它的形态也不一定是一个人形或者但人形当然是它是一个非常通用的因为它可以干的事很多人形当然是最好的但在人形之前也许它是一个别的形态但这个形态最关键的点就是它必须得按我随机的指令给正确的反馈对能接得住吗就所谓的对就是接得住说白了我就确定 GPD 能干啥它也不能干啥它就是跟我聊天

这个人形机器人他只要能接得住我的话能够做就是我让他做一件事情他去做了哪怕有点滑稽或者什么样对吧确实 GPT 在 GPT3 时代他也不是很完美对吧那个时候他有各种各样的问题但这个人形机器人一开始如果能他只要能做到这一步就哪怕手是两个机器包的圆球他也足够震撼了我觉得这可能就是那个关键的时刻

你要这么说我觉得可能明年机器狗消费者接受度销量加成本都能有比较大的变化因为一个是现在好多拍自媒体的都买机器狗在家里面不给你搬一些东西之类的还挺好用第二个是深圳的机场的礼品店已经开始卖机器狗了你知道吧对

对但是我觉得今天在策略层还差很远很远就我们所看到那些所有自媒体都是以遥控的形式那其实治理权来自于这个遥控的人是遥控的对就是今天的机器狗都是在忙着走就很多机器狗连视觉都没有它连空间定位能力都没有怪不得是自媒体呢所以你看机器人领域聊这个的不多啊

明白但是这个形态我认为是对的就是它其实也有一定的通用性然后只不过你要接受它可能跟你聊天这件事情就是因为宠物是不能做的然后在节目的最后一部分我们还是希望给大家贡献一些给大家生活有帮助的一些东西我觉得 Rex 可以从这个机器人怎么传出来这个项目怎么传出来的开始说一说最近是十年的硬件创业潮

其实也可以回顾一下 Rex 这次比赛好像就只有一个人对吧对我其实不想想一个人但是因为这次这个比赛它是它是公司和这个团队和个人混得起来比所以我一开始想来组队的就我想来这捞一捞这个未来的一些合伙人什么的结果没想到大家都是组好队的就我一个人单步然后被迫一个人一个队很有意思的是

我觉得因为现在 AI 工具变得特别多和好用所以就变成以往可能很难想象一个人去做一个蛮复杂的一个项目这次因为我一行代码都没有写但是 AI 去帮我从电机的驱动到 ROS 的这种节点到大模型的交互语音合成多摩泰 Agen 的这些东西全都是 AI 去帮我去写的代码

这个是在之前还挺难想象就全程 AI 去帮你完成而且因为这些代码还不光是编写它还涉及到整个 Linux 的一些环境的搭建部署而且它是要部署到一个很小的一个开发板上这里面还是有非常多一些坑子在里面然后 AI 都非常好的帮我去进行这种 bash 的一些环境的配置然后等等这些东西对 然后包括这次在整个结构上面

我大量使用 AH 帮我做衍生设计所以就是整个 3D 建模的部分我也就是用 AH 帮我解决了很多很多问题我没有看到那个轮子就是有点像树根形状的那个 3D 打印件实际上是 AI 帮你完成的那个设计对吧

对我觉得这是一个挺不一样的思路这个设计方法叫衍生设计叫 genetic design 然后它是一个只有在比方说方程式赛车还有像一些火箭推进发动机上面才会使用的一种技术因为这两种场景都是完全不计成本然后但是追求特别极致的重量那种方程式赛车对于重量也是很敏感的

然后对强度要求很敏感然后火箭发动机更不用说了但是这个东西反而从我的视角来看不是为了极致的省车门或者效果多么酷而是它帮我省事因为它在建模的过程中我可以去干别的对因为它 AI 的建模过程还是比较慢的而且它整个设计思路不一样以往我们可能是以画曲线的形式或者我来构建模型的尺寸什么的但

这种 AI 建模的方式是我去构建力学模型我其实构建的是说 OK 我这有个电机然后这个电机上面做的是人我定义好我这个人的体重然后这个人他在每一个轮子上面要产生多少牛的力量

而这个计算工作我是让 GPT 帮我去算因为 GPT 特别擅长这些算数的工作然后他来帮我算这些整个力学的模型算完之后我把这些力学模型构建在这个场景里面然后他再去根据这个力学模型去帮我算出为了完成这个力学的特征所需要的最少的质量和它的结构的形状所以那些看起来像好看的曲面什么的其实我根本我也不知道它为什么长成这个样子

它是完全数学的结果轮子的支撑件看起来像榕树根一样对吧看起来还挺酷的对但这样的形状恰恰是在完成这些力学特征的前提之下的最优解对我可以因为它算完之后我也可以有整个有限元的分析我可以非常清晰的告诉你每一个地方受多少力的时候它的硬力特征是什么样然后它的就是

断裂强度是什么样我可以非常明确的告诉你因为我觉得我之前在做滑板的时候我们是个草台班子就这么几个草台班子或者说整个短途代步行业都是草台班子能草台班子到什么程度呢整个这个公司做了好几年没有人知道为什么电机要选这个瓦数这个问题一点不夸张我觉得

非常非常多的公司是无法回答这个问题的包括今天就是无论大家是做一个云台也好还是做一个任何有电机的地方你去抓了他们的工程师你就问一句为什么他一定是要这个瓦数为什么这个电机一定要有这么多绕组这个数字这个所谓的求真的这个数字你是怎么算出来的还是你只是凭经验和感觉

或者就是可能它是五年前基于当时的技术定下来的一个指标

然后呢它流传到今天它就失效了但你也不知道为什么反正你就 follow 它就好了对这种事情特别多你的惯性会告诉你这种事情确实特别多就是就比如说我们现在用的键盘不就是这样的一个产物吗对吧过去的打字机容易卡字所以我们现在叫 quarty 的键盘的排布完全是因为减少两个相近的字母之间

从实出现的可能性的这个概率而设计出来的一个东西但是我们被迫用到今天那这还是一个我们知道它是草台班子的一个一个草台班子还有很多草台班子确实就是

因为这些细节普通人也不知道专家呢也就糊弄一下对吧因为他没有出问题他可能就这么做了但是你在那个榕树根一般的那个结构面前你就会发现原来我之前想象中的那个受力很好的结构看起来是如此的冗余和不必要但这件事情

确实是因为我们整个人类社会的构成还是没有那么理性和逻辑的就是很多细节虽然我们知道比如火箭发动机我们能把人送上月球是吧在这些领域里面有着大量的精密的计算但在无数茫茫多的我们生活的一些细节里面

有着大量的等待着被改进的东西这就是为什么乔布斯其实之前就一直在传递这样的一个理念如果你觉得一个东西不好用你不要怀疑自己你就是去把它改变

因为它很可能就是一个草台班子临时拍脑门定下来的一个数据或者一个形态或者就是很多年前像尼克森讲的在当时的限制条件下被迫搞的一个东西一直用到了现在我们就像被一个很细的铁链拴住的一只大象小时候挣脱不了长大了也不敢去愉悦它这个确实是这样子

所以这次我很大一个感受就是因为用 JPT 包括 Cloud 它可以去帮你完成非常好的数学计算物理学的计算然后这些东西可能我们我猜我们高中都学过很多计算但是可能大学毕业之后全忘了你可能连一个最基本的我问你一个椅子这个腿要多粗才能让你不做断这件事你也算不出来但其实大模型反而能让你非常好的完成这些

高中知识的这种真实的场景相当于有个研究生帮你算对吧

对对对然后我们第一次有了机会去求真这个事让我觉得还挺感觉挺不一样的所以刚才我们听 Rex 讲完其实在过去如果没有 AI 我们是无法做到一个人做一个这么复杂的项目对吧这里面涉及大量的计算涉及到从软件到硬件的模型的编写一些论证一系列的工作但是今天我们有了 AI 我们用 ChatGPT 用 Cloud

我们完成了从嵌入式代码电机驱动到结构键的这个有限元的计算全部都搞定了那就一个人 Rex 也把这个项目搞出来并且拿了奖对吧那么就回到我们开场留的这个问题就是这是不是一个

面向超级个体就所谓个人创业最好的时代是不是一个个人可以用灵活的像 Rex 一样去很好的应用这些 AI 工具他就能够成为所谓的超级个体来完成一个所谓的 AI 创业者的这个角色呢我觉得这个问题有点两说其实你看 AIJC 这个领域里面有非常多人喜欢用 AI 去做图也好用 Sono 去做音乐也好

但这个过程中因为大家的审美也通胀了对吧就大家其实当大家能够去就是很快速的用 AI 生成一些消费内容的时候我们对吧也需要更好的东西了这个时候你发现水涨船高之后你依然不能跟最顶级的这些艺术家们因为这些艺术家们也掌握这些新的工具了这个过程很有意思是一个是每个人的这个

意志力是很弱的这种意志力来自于比如说你的劳动时间很多人可能八个小时一天只能工作然后可能这个事如果一个月之内没有人夸你你也就自己不想干了非常依赖这种情绪的奖励然后我们的学习能力很多人到 35 岁之后其实学习能力会断崖式下降很多人可能会被生活琐事缠绕对吧就送孩子上学什么这种事对就一个人能做的事还是很有限的但如果大家

通过构成一个团队你只要在团队中大部分时间在摸鱼然后关键到你的时候你十俩下劲这个船还是能运速的向前前进对就是形成一个组织依然是最省力的一种方式做一些事所以我不是很赞成超级个体是因为我身边蛮多超级个体他的精神压力是很大的对因为他必须一个人撑着去做完整个这件事对就没有摸鱼时间

了解所以我听下来这个可能绝对的个体就如果当我们指的是一个人搞定所有的时候这个可能即便有的非常多的帮助但是因为人类本身作为一个个体的有限性它会面临情绪上的注意力上的劳动时间上的这些实际的限制

目前的 AI 一帮 agent 即便全上了可能也解决不了这个问题所以我听懂了 Rex 的意思就是说个人是可能还是无法做一个大的就是真正的所谓的创新或者创造的他可能可以打一个比赛对吧就像你一样但是如果要做成一个我觉得可能更大的问题是关于作者性今天咱们其实对于很多科技产品可能做出来就已经是很重要了

我们其实很少在科技产品里面去所谓的作者性这个事但我认为电影是个非常好的一个例子就是电影里面并不是导演一个人的创造就电影里面灯光师摄影师包括演员本身包括编剧每个人都在进行一个非常高强度的创造他们每一个个体的创造力甚至完全不比导演少

一个演员也可以撑起整部作品但一个人的表达欲望是很有限的其实我们今天看这个所谓 AIJC 大家很容易去用 sono 很容易用绘图画图的这些生图的这些东西 99%的人依然可能是不知道自己要表达什么

如果你没有表达欲给你一个这种 AIGC 的工具你生成的那个图片就是没有人看的这些图片就你和像乌合麒麟这样的一些作者对吧他能画出来的这些东西因为重要的不是你的技法嘛更重要的是你为什么要表达你的表达动机是什么这件事可能还是会变得很稀缺或者说在一个复杂的产品中大家会更多去追求这种作者性了

未来可能你看到一个产品你可能看的是说 OK 这个产品的 ID 设计这个人的作者性是什么他为什么要去表达这样的外观然后这个电子工程师他为什么要去设计这样的电路可能我猜科技产品也会像电影一样变成一种集体创作的一种结果对 我能理解就是这种绝对的个体应该是确实有这些限制反过来讲因为我们其实之前聊过一本书叫 ReWork

它里面其实讲的不是说绝对的一个人搞定一件事它讲的是一个小的组织可能因为工具的优化跟效率的优化它是可以战胜大的组织的这件事你怎么看这个我同意因为很多产品比如说做一部手机它确实可能需要一个几百人的团队才能做好或者做一辆电动汽车对 但

因为工具变得更加易用了所以未来可能大家做东西或者你这个产品也不是给那么多人用包括有 3D 打印机这样的东西包括我自己会经常买一些创科类产品他就是发给我一个 3D 打印机的打出来的零件做的一个东西我完全可以接受因为太小众了没人搞这东西只有他们家嘛

这个过程一定是会诞生很多小团队的机会就可能两三个人小团队也能做一个生意出来然后没准这个生意可能自动化的营销工具等等的这些杠杆还是存在的对他们没准还能卖非常多是的所以听起来超级个体可能不一定有但是复仇者联盟可能在今天的 AI 时代就有那么几个所谓的超级个体组成一个小的联盟

那他也许能完成过去大家不敢想象的这种大的生意大的商业模式大的创造我觉得都是有机会的对吧对我是觉得可能一年一个亿这件事儿

应该未来会很频繁的出现在新闻里面就是一两个人一年一个亿就是这里讲的生产它不一定是说把那个东西做出来其实我最近就看到在那个产品的宣发领域其实就有大量的完全是大团队和小团队完全抹平的这种情况比如说小团队现在你早期做个产品你不管硬件你上 Kickstarter 软件你上 Product Hunt 对吧

然后或者是说你们有一些垂直的一些这种媒体其实就很容易获得这个宣发那这个是我觉得这个是一些相对来说低门槛的对小组织友好的然后现在还有一种趋势呢是有一些人做的一些产品呢他就是被推荐算法选中了他就是有很强的互动性或者有很强的话题性你就会发现说他过往什么粉丝量啊其实之类的就不太重要

你就会发现说尤其小红书这种算法结构对对对尤其像小红书这种算法结构和推特这种算法结构吧我觉得特别容易特别容易有限这种东西然后我自己 9 月底我在那个推特上我刷到一个一个美国的大学生做了一个项链 AI 项链带摄像头的我当时都差点买了然后我过两个月我真的要想要去下单买的时候我发现

他搭了一个完整的页面出来讲的有鼻子有眼的我都把信用卡账号填完了我突然想起来说这个人最近两个月都没更新我问一下他是不是真的要发货我怕他跑路嘛然后结果那个人他就很 nice 的回私信给我说我其实还没有准备好要把这个东西发出来所以你就看一个飞机稿都能把我

都能把我诱惑的差已经快要点付款了所以他可以准确的推送给你对吧对对对他可以把准确的推送给我他会准确的识别到这个东西给我这个确实是这个时代带来的红利就是不管是制作的过程还是后端的这种宣发的过程都会有这样的机会对嗯对所以他就会变成可能托马斯你可能感受更深一点因为你专门干市场营销的嘛就传统的市场营销呢

依赖的是公关公司依赖的是媒介的铺陈对吧但现在呢出现一种新的营销方法叫做你要做那种话题性的东西这里面最离谱的就是做就是做 meme coin 的那帮人用表情包发加密货币那帮人对吧就是他他有一个话题他有一个题材然后是大家能够愿意来加进来款欢的他其实这个时候已经完成了这个产品的创造和宣发就是这样然后

然后它就能产生经济价值刚才 Rex 提到电影电影是基地创作的典型对吧它需要一组人花很长的时间去完成一个创造但是反过来你看今天的短视频它可能就变成一个人或者两个人就可以很快速的通过算法获得非常大的关注以及相匹配的商业价值当然我们不

不去评判它的艺术性我们当然知道在艺术性上它肯定是跟电影没法比的但是在商业上它已经构成了很显著的商业的效果我们也能看到这两年这甚至是一个话题性的一个现象级的事情就是我们可以看到比如说像一些网红的崛起跟殒灭对吧

这两年其实都不胜枚举但我们就不展开了这两天不是有个新闻说短剧的流水今年已经超过电影行对对对这是另外一个新闻对托马斯你还记得你第一期播客就是讲电影行要完了我不是第一大概第三期吧那个其实其实我很早就不看好电影了因为当然这是另外一个话题大家有兴趣可以翻一翻我们早期的播客听一下那 anyway 就是说回来

这个可能不是一个超级英雄单干的好时代但是应该是一个复仇者联盟有机会去挑战一下更大的组织更大公司的一个很好的机会很好的时间点不管是前端的研发后端的营销中间的产品我觉得只要你有一个好的想法只要你能够问出正确的问题

只要你知道一些基本的逻辑跟框架你可能就可以去投身去学习和创造一个有意思的产品我觉得这个可能是我们或者有没有可能它不是一种挑战其实我们看到比如像韩国日本他们有非常多文创这个产业

对其实文创某种意义上就是文创产品并没有跟这个大厂去比拼效率和品质对对对其实它是在一种更细颗粒度的审美和生活方式上去构建了一个产品对

但因为它有换回来更好的溢价包括中国大陆的帕尔马特现在也非常的火爆甚至在东南亚帕尔马特可能它不见得是个好的案例我想表达的是那些文创因为很多文创类产品它的销售额要求也很低它可能就养活三四个人就够我猜可能会出现这种基于 AI 的这种赋能大家做出来这种科技文创

是的现在已经有这个趋势了对最后我想回忆一下就是 Rex10 年前你是正经创业开始开场我觉得 10 年前和今天我们刚才也提过是正好是两次尤其是硬件创业的浪潮我们要不聊一聊 10 年前和 10 年之后你觉得有哪些区别 10 年之前和 10 年今天一样的地方都还是有几个大的概念去包装他们 10 年之前是 IoT 和大数据

或者是互联网思维然后今天的话呢有一个大的很大的概念就是你会用 AI 去改造一切的这个产品嘛但是实际上我觉得十年之前和十年之后大家做东西的逻辑啊其实是差别比较大的十年之前很多人他做硬件他也是为了做虚的那个东西

就是我见过身边朋友买的最离谱的东西叫做你买个能够通过计重量计你今天喝了几杯水的东西然后拿到你的喝水数据他就说我觉得我以后应该是一个喝水的数据平台在十年之前呢每个人都有一个平台梦那十年之后呢好像大的梦想就不一样了十年之后呢有的人做的是这个通用计算平台的梦有的人做的是这个

出海觉得是做一个中高端品牌的梦对吧我倒不觉得你那个喝水的杯子很虚啊我觉得还是就如果它是个文创产品如果它是一个放在书店卖的一个杯子然后他推广的就是这种你能够就每天不少又喝多少水这样的一种 lifestyle 然后你这公司也没想招很多人你可能五个人一个工作室

其实挺好的我们说通俗点的比上班强对但如果它是一个比如说这个喝水数据平台这么一个能要搞一个几百人团队那确实可能会撑不起来对我觉得是这么一个预期的一个差别吧但我倒没觉得这是一个完全不好的东西对然后我觉得这十年的一些变化是其实那个节点上大家的焦虑感也挺强的因为可能 14 15 年好多人可能是刚上车刚背上负债

其实很多人也不怎么敢跳槽或者离职就是创业依然当时也我觉得也是属于少数只是当时因为有双创这样的一些气氛在就情绪上更蓬勃一点对然后今天可能就是大家虽然活动上来的人很多然后但真正你说大家愿意辞职创业的还是偏少了一些其次是我觉得下一所谓的下一波浪潮还远远没有来就这一波在我看来不是 AI 带来的而是 AI 的工具带来的

而且到我看来他还没有来我觉得那个临界点有点像最近的那个补光灯那个小猫补光灯你们知道那个软件吗知道一个好像运营还是产品经理背景的一个人然后用 AI 写的一个全用 AI 写的一个软件对我是觉得那个时刻因为今天的 AI coding 是已经到了那个临界点了就是一个

基本上你只要稍微懂一点点软件的人就能够驾驭一个 AI 工具来完成这么一个产品的直接上架的这么一个过程

但是今天比如说对于硬件来说就百分之百用 AI 去完成一个结构的 CED 的设计就今天还不行因为衍生设计你要基于很强的基本的建模的基础才能去驾驭它然后包括 EDA 就是怎么去用 AI 去生成电路板这件事也没有完全落地

但这些工具在我看来在非常短的时间内就会被 AI 化因为 CAD 它本质还是可以用代码去生成的

对然后这个电路板更加是容易因为它本身是个实量图嘛对它其实也很容易用 AI 进行这个制作只是没人干这些活这些专需要有人去搬对但在我看来就那个临界点应该是说当大家可以是一个完全的外行然后你用 AI 工具可以帮你去完成从机械的结构设计到电路板的设计然后到软件的编写都能帮你做掉大家才会迎来那个创客潮它

他们带着所谓的那种创作欲然后进入这个领域他们可能不是工程师但他们很会表达一种生活的意义感这些人在我看来是下一波创客潮的起点但显然不是今天可能会再晚个两三年今天来看我觉得很多创业者还是有点太着急了大家很着急去把一个对话的东西加给各个硬件让一个硬件能说话然后好像他就变个 AI 了然后

然后这个其实像极了之前大家给任何一个产品加个蓝牙然后它能够接入物联网平台我能用手机远程开关它这样的东西这个 feature 可能存在但它不一定是最重要的事或者说它应该成为所有产品的一个很基础的事我觉得很多真正的这些玩家还没有下场对

在我看来 AI 这一波里面真正下场的这些玩家就是我说的这些表达者这些人可能在过去不怎么存在或者因为表达者和产品经理中间还是有一个很大的 gap 因为互联网或者过去的这波浪潮培养了非常多产品经理但非常多产品经理是监工

他们应该是一个项目经理而不是一个产品经理产品经理我觉得它分布非常不平均只有 1%的产品经理是有表达欲的是这个过程中甚至有可能只有那 1%的产品经理才能完成转化剩下 99%都只能被迫转岗对

但是又会涌进来一大批艺术家们因为这些艺术家们他们见过大家不曾见过的世界他们理解过不同的生活方式然后没准这些东西会成为大家特别想要的东西因为你很向往那样的那样没见过的东西对我听 Rex 讲艺术家这一点我还蛮有感触的就是我谈谈我对 10 年前后的看法我觉得 10 年前的那一波创业潮实际上你现在回头看

当时的气氛很浓烈但是其实条件不成熟因为有双创的气氛然后有这种当时互联网的最鼎盛的这种激励它带来了很多想象空间所以很多人投身创业潮但这个确实是仅限于产品经理和

工程师的团体在做这件事情更多一些作为一个艺术家一个表达者一个普通的没有基础的普通人是做不到在 10 年前跳出来做这件事情的但是 10 年后的今天我们看到了工具的完善我们看到了像小猫补光灯这样的一个纯外行用 AI 做了一个完整的 APP 上架并且卖到了好像品类榜的第一名

收一块钱我记得这都是一个很明显的区别就是工具更完善了同时呢有更多的就除了产品经理和硬件工程师以外的软硬件工程师以外的这些我们可以打个引号叫文科背景的人他也有机会进入到这个创业大潮里说人群更泛滑了同时在十年后的今天呢其实跟十年前不同十年前你在大厂其实是有一个很 promising 的未来的

你是看到非常好的前景这个前景是可以上市变现你可以财务自由等等你可以看到很好的职业机会但是在今天呢其实恰恰相反我们看到的是一个萎缩的市场内卷的现状然后呢整个大的环境很差的这样的一个现状里面很多人被裁员很多人可能被迫的要进入这种

超级个体的状态我们也看到了很多所谓辞职博主但是那是另外一个话题其实他在底层构成了一个群体他是天然会考虑这件事情所以在十年后的今天工具更完善当然还没有完全到位我们可能还需要一点点最后的这么所谓临门一脚的这一到两年的工具的积累

但是这个时间点已经非常接近我觉得比十年前至少是更接近一个理想的小团队创业做一个自己想做的这种事情的一个时间点了我觉得这其实是一个蛮好的时间窗口去做这件事情

但几家伙计几家仇吧可能因为我就听咱们这个播客的有很多人应该是互联网从业者或者至少是产品经理和工程师这些画像的人群可能在过去 10 年里面我们是有能力创造产品的但可能在接下来这 10 年我们可能是最没活干的人

对然后而涌进来这些艺术家和所谓的文科生们他们所创造的这些价值或者他们掌握的能力是我们没有办法短时间培养的是的因为你没有去过那么多国家没有喝过那么多酒没有见过那么多的人好那以上呢就是我们这一期的最核心的内容我刚才突然想起一个点就是我关于对文科生的一些理解就是

我那个滑板公司关掉之后因为会进入了一小段人生的低谷状态就你突然变得无所事事因为你也不会想找工作然后你也不知道干嘛然后可能你内心会受到非常多关于就是我把一事搞砸了这样的一种折磨的心态我闲了很久他可能有两年时间没什么事干然后那会儿我开始接触拉丁舞我开始去跳 Sasa 然后跳 Bachata 然后跳 Kizumba

我觉得我在那之前的整个人生是一个非常理工男的一个状态我对于这些东西是科学我觉得计算机才是最重要的事情当我开始接触一些舞蹈的时候尤其这些舞蹈这几个都是极性的双人舞

在这个过程中你完全没有通过语言在跟任何人交流我们是通过肢体然后去传达你的这些东西然后而这个过程中因为有一个人给我推荐了一本书是李安的一个十年一教电影梦

然后其实那时李安在人生非常低谷的时候去讲他每天怎么做饭然后怎么去啃老就是啃老婆然后我在那个过程中开始逐渐接触更多电影的一些东西接触更多文学我觉得我小时候不怎么看文学类的书因为小时候觉得技术类书很牛逼然后觉得好像看《红楼梦》什么的这些都你要看就看金瓶梅也不看《红楼梦》这种

但我会突然感知到原来文科生的世界要学习这么多重要的训练以至于他们可以把《红楼梦》这本书无论是在这种文学性的这种美的这种感悟上和人物关系的观察每个人为什么要说这句话然后他说这句话他的人物关系的动机就在这个文学这么一个非常扁平的作品里面怎么去呈现然后甚至说怎么去创作这样的作品

包括音乐然后后来我还当了一年多的 DJ 然后我在上海有 club 去打 techno 我觉得这段人生经历虽然我没有在创作科技产品但我感受到了我可能也没有太多能力去创作这些艺术作品但我确实多了非常多的体感去理解原来这个世界

有如此多重要的东西是需要文科生经过非常多的训练和花很多时间去感悟虽然从李科生眼里看你们在玩对 但是这就像你在去写大码一样的他要花非常多一万小时时间去积累这东西甚至三万小时对 而这些东西我觉得是这段人生经历让我看到

这种特质依然超级稀缺因为他在人类中可能也是 100 个艺术家里面只有一个特别有天赋的人才能掌握很多东西剩下 99 个艺人其实陪跑了而这些人在 AI 的放大气质下可能会释放出非常大的这种可能性来这个价值上的好我觉得我们以前聊超级个体都聊窄了没有上价值我们之前做还是很

很功利在算计你知道吧算力生产力算计 ROI 可以这个诗获加的不错所以我这个过程中我反而会觉得越来越以前做理科生的时候觉得很狂妄就觉得好像确实会有自己可以掌握很多因为文科生甚至变成一个贬义词在理科生的口里变成一个戏谑的对象其实这件事情是不对的我们在此向所有文科生致以最高的敬意哈哈

那本期节目就到这里好谢谢谢谢 Rex 拜拜