We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

能操控电脑的 Computer Use 究竟是什么？万能胶水、旧世界操作员，还是无所不在的智能？

2024/10/29

编码人声

AI Deep Dive Transcript

People

Michael Yuan

白

白宦成

陈

陈春宇

Topics

白宦成:我认为Computer Use是Tool Call的延伸,它能理解屏幕信息,但效率可能不如快捷键。模型公司推出它可能是为了展示正确用法,激发开发者创新。陈春宇:我将大模型视为非结构化数据到结构化数据的转换工具,而非依赖其Tool Call能力。多模态是关键,大模型是万能胶水,能处理各种自动化任务。在特定场景下,巨神智能处理混沌问题,机械臂处理重复任务。 Michael Yuan:我认为Computer Use模拟人使用计算机,是一种泛化方法,虽然初期可能不如特定方案,但潜力更大。它能理解人为设计的界面,将物理世界与数字世界连接。未来可能出现为模型优化的用户界面。

Deep Dive

Shownotes Transcript

本节目由津津乐道制作播出大家好欢迎大家收听由 RTE 开发者社区和津津乐道播客网络联合推出的编码人生节目我是主播小白我们今天在 RTE 大会的现场来为大家带来这一期播客内容那么这一期播客呢我们也是一个线上和线下同时联动的我们其实是一个线下开放麦然后我们现场也有很多朋友在一起

请不吝点赞订阅转发打赏支持明镜与点点栏目

是一个最近刚发布应该说是我们 2024 年 10 月份的一个非常新的 topic 今天我也说不是我自己一个人聊因为我自己虽然的确也在做这个方向但一个人总是觉得说你的视角是有限的所以我也邀请了两位朋友来跟我一起来聊一聊这个 topic 首先我的第一位嘉宾是陈春雨 Raffle 的创始人春雨来给大家打个招呼然后自我介绍一下吧

欢迎大家来试试

OK 然后我们今天的第二位嘉宾是 Michael Yuan 他是 What's Summer Age 的维护者也是 Second State 的创始人 Michael 你来给大家自我介绍然后 say 个 hiHi 我的名字叫 Michael Yuan 对我是学物理的博士但是在我 PhD 之后呢一直做的都是软件的事就今天这个 topic 非常喜欢看见这个 atom 的世界跟 bit 的世界物理世界跟软件世界终于又要合在一起了

我的开源项目叫做 Wasmich 是 CNCF Linux Foundation 的项目我们的简单自我介绍完了以后我们就直接入正题咱们就不聊闲片了我们今天聊的这个话题叫 Computer Use 它是在 Cloud 在最近发的一个 Demo 演示让它的 Cloud 新的模型能够直接操纵我们的电脑去

执行一些动作比如说你可以跟 Cloud 说帮我打开云音乐或者说你跟 Cloud 说帮我去播放音乐那 Cloud 就会操作它的屏幕然后去打开里面的音乐播放器然后主动去播放音乐这个是 Computer Use 的一个基本的 demo 的展示那我不知道是说春雨和 Michael 你们在发布会之后你们有看这个 demo 或者去简单了解一下这个功能吗

有的我都看了然后包括像智普最近发的那个 GLM 去操纵手机的也都看了觉得还是一个挺有意思的事情对我也看了我们其实在大概一周前我们有一个活动叫做 GoSim 的活动在清华边上的东城大厦我们有十个大学生团队然后让他们做的就是 Action Model 所谓巨声智能我们给了每个组一个机械臂一个小车

然后让他就说是把那个签问的那个 VLM 把它训练成直接进来的是视频出来就是 action 对吧所以说我想说的其实可以比 Cloud 再往前走一步就是说不只是要 computer use 可以是真正在现实生活中跟人 interact 其实都是可以的

其实我自己平时也在做很多这种大模型的开发包括也去用过很多 OpenAI 的能力包括我自己其实接触一些开发者会发现说我们团队算是比很多团队跑得要先一点就是我们还会主动去选择一些 2CALL 的一些能力但确实过去很多开发者其实都还是在用

我们一般定义上说叫 OpenAI 的套壳对吧它可能就是写一个 prompt 然后让 AI 具有某些特定的 persona 然后就开始去做一些事情但其实我们可以去用 OpenAI 的模型来帮我们去做很多事然后包括这次 computer use 其实从我自己视角来看它其实算是我们之前突靠的一个延展当然它在这个过程中它去结合了很多过去模型所没有的能力比如说能够理解屏幕当中的这些信息它甚至能够理解这个屏幕当中的每一个

Element 到底是干嘛的它的下一步 action 是什么才能够最终去阐出说我下一步的动作是什么那这个呢是我眼中看到的 Computer Use 我不知道就是在你们两位看来说 Computer Use 这个东西它的技术眼镜包括它的一些技术难点你们有没有什么想法或者说你们觉得说可能这些东西是你知道但其他的听友或者是我们现场的听众大家不知道的内容

因为这个事情呢我其实在多模态的模型出来以后我就对这个场景有所预期所以这次 Cloud 发布这个模型我倒没有觉得特别惊艳感觉会是一个

比较水到渠成的事情然后我今年在硅谷比较幸运的是在春天就很早的体验过 OpenAI 的一个内部模型当时他们就已经能够做到在语音输入的同时然后来截取你的电脑屏幕理解电脑屏幕然后还有一个视频摄像头的输入你还可以打字它就是同时做到了多个流的画面以及语音以及打字的输入并且能够综合这所有的输入一起给个反馈并且这个反馈是实时的那很有可能就是

当时就已经可以做到比如说我的电脑开了共享屏幕然后我在摄像头里跟他说我跟屏幕上这个人的头发我们俩的发型相比是什么样的然后他就直接用语音实时地立即回答给我然后我不知道是出于什么原因就这个模型或者是这样的一个能力

OpenAI 始终没有对外部进行开放但当时我就想到 OK 如果它的推理速度足够快并且它有这个画面理解的能力的话因为你视频推流它也就是一帧一帧的当然他们可能有别的 Token 化的技术但从它能够去理解图片能够理解图片上的元素能够理解到这些按钮是干什么的时候我就觉得到现在这一步可能它更多的是一个工程上的问题

我不知道他在更底层上是否有所推进对所以在我今年春天以后我就会预感这个时刻的出现吧春雨说的特别对我觉得有一个这里面特别核心的一点就是多摩泰

因为就像刚才说了那突扣这件事情其实很早就有对吧就是一般情况下你跟大模型对话就你说一句话然后大模型给你一个自然语言的回答但突扣呢就是说你在 prompt 里面会加一个叫做 tools 的 section 这 tools 呢里面你就会用自然语言写如果要干这个事情呢你就扣这个方式要干那个事情呢扣这个方式这些方式之间互相都有什么参数

然后你把这个东西跟你自然语言的 prompt 一起发给大模型比如说你问他今天北京的天气如何然后下面你的 tool call 里面其中的一个方式就是说对于任何一个世界上任何一个城市用 getweather 然后把城市的名字放进去就能够得到这个城市今天的天气对吧所以大模型回复给你的呢不是今天北京的天气如何

而是说我要根据你刚刚的问题和你的 tools 我要用你刚刚给我提供的某一个 tools 叫做 getWeather 对吧所以他就会给你说 getWeather 然后说 pass 参数北京这是以一个接上的形式返回给你的你的客户端收到了这个之后你就 suppose 应该去 execute 这个突破至于你怎么去 execute 这个突破这是你的事对吧就你怎么去说 getWeather 可以是个 Python 方式也可以是个 HTTP request 或者 whatever 对吧

然后你就可以拿到了今天北京天气然后你把这个结果再发给大模型说这个就是说大模型招有几个 persona 一个叫做 userassistantassistant 就他就大模型自己 user 是你对吧然后在这里面 introduce 的第三个 persona 就是 tour 所以 tour 呢你就说比如说今天北京是多少度今天大模型拿到这个之后他再去回答你刚刚提出来的第一个问题所以 assistant

先是让做了个突破然后再次说今天北京的天气是什么对吧你看这个过程其实我们当时自己做应用的时候我们看到这样一个交互流其实主要的问题是一个可靠性的问题就是说他是不是在每一个我想要用突破的时候他都知道用突破比如说我问他一个不常见的地名就不像北京这样比如说我问他一个他可能不能 reliably 识别是个地名的地方

我也问他也许比例是天气而问他今天是几度这种问题他知不知道他要用突破来解决呢而他回答的东西因为不是自然语言所以他是不是一定能够按照我要的这个标准回答这个 JS 这其实呢中间就有很多工程化的问题就是说你会发现这个突破不是百分之一百都 reliable 甚至可能不是百分之七十都 reliable 所以说你要不情得去改一点的 prompt 因为你改不了模型嘛这

这个是我们想讲的另外一点其实 Open Source 的模型在这里面会有很大的作用因为 OpenAI 和 Atropic 的 model 你是不能改的或者说你很难改但 Open Source 的 model 你很容易对它进行 find to 让它产生你想要的或者比较 reliable 的产生你想要的突破不过我们刚才也看见这个完全是一个文字的交互我觉得今天我们说 computer use 或者再往下走一步巨声智能 agent

其实很大的是就像刚刚春雨讲的是说我来的是个图片我来的不再是问你今天北京天气如何而是一个就说是 computer screen 那上面有某个 task 你要识别它是个什么事然后你要去找到要用的这个 tool 是哪个也许这个 tool 并不是要去 make a web servicecall get weather 而是要去按一个 button 对吧所以我觉得在多摩泰我觉得这个是个是核心能力也可能是最近我觉得

大模型进展比较大的一个方面对吧然后其他的我觉得这些其他的工程能力我们在用做写 tool code application 需要的这些工程能力今天也都需要就是它的结果需要 reliable 它的结果就是说无论是它的结果的 thematic 或者是它的结果的逻辑都要是能够就是说它得要能够稳定产生这样的 output 我其实并不知道像 Tropic 的这个 computer use 它的 reliability 有多好对吧就是说如果说我给它一个很奇怪的场景比如说我屏幕上都是中文或者什么这种

它能够识别吗所以我觉得这个是可能下面一个大家会发现到的事刚才听下来我突然想起来一个时刻是最早 OpenAI 在发布 function call 的时候它的发布会上演示的效果它当时是让一个工程师去做了一个前端应用然后去调 to call 调完 to call 以后 OpenAI 的模型会返回给它一个切换地图的动效然后它会在前端直接把地图切换成具体地点

我现在突然会有一种感觉说现在这些模型公司为什么突然跑出来说我要做这个 computer use 因为这个东西其实从我们自己现在理解可能说还没有那么的稳定它还不是一个很好用的产品但它为什么突然跳出来要做这个我突然在想说也有可能是我们过去大家都在疯狂的套壳和加 prompt 我们没有去用这些他们真正想要我们用的能力所以他们突然觉得说就像当年我要做差異 GP 想说我要告诉你们什么才是用这个玩意的正确玩法

所以今天我要做一个 commentary 我告诉你说其实我可能不止可以用来调图我还可以做别的东西然后那你是不是可以去探索一些更有意思的场景我突然有一种感觉就是可能他们又觉得说哎呀你们这些开发者想象力脑洞还不够大我现在给你们展示一下到底还有哪些东西可以去做

对我觉得刚才其实我们聊到一个很有意思的话题就是多么态其实这个东西也是我自己做大模型以后我自己感觉说那可能这个东西真的是一个必经之路和我们真的要投足够多的精力去做的事是因为说我们现在真的面临着说我们的语言是很匮乏的我们很难去非常精细化的描述我们现在所看到所听到所感受到的这些东西所以没办法

我们需要用更多的模态比如说我们通过眼我们去理解我们通过声音去理解我们通过种种方式去理解但是有了这些模态我们能理解然后模型呢只能文本这个时候我们的压缩太厉害所以我们去做多模态包括我们今天去做这个 computer use 它依赖的是说我们要能够理解屏幕上的每个像素点是什么以及这个区域它到底是什么

才能够让模型去说大概你应该在哪个去做什么动作去完成这个事那下一个话题我觉得可以聊一聊的是说 Computer Use 这个事呢其实会有点像它和 2Card 的一个竞争会很像我之前在想说我们的机械臂的变化因为在看到 Computer Use 我的第一反应是说这个东西是一个很好的 PR 的产品就是你在任何发布会上你就给用户展示说你看我的设备可以自己操作你跟他说一句话他可以去做很多动作

这个事会让很多可能不那么懂技术的同学会觉得 amazing 但我们目前的实现就是它实际上是说让机器去点 A 点 B 点 C 它执行了一步一步的 step 其实会让我会觉得说这个东西可能也没那么好用特别是我们工程师大家平时就是各种快捷键一把缩对吧屏幕上都不想点直接快捷键那它在真实的业务场景当中很有可能它的

效率是没有那么高的它只是一个看起来很好但真实用起来可能没有那么好的一个状况然后这个事就让我想到了之前去关注说包括特斯拉在做机器人也包括国内这几年一直在火的这个居身智能包括我们说过去的这些工业领域其实一直都有在讨论说我们到底应该做什么样的机器人我们到底是做一个机械臂它就放在流水线上它就只完成这一项工作

还是我们要做更多的机器人就是完全的人形机器人当时我听过一个观点是说从特斯拉的视角来看我其实可以做机械臂机械臂其 RY 更高我马上就能落地但它对于我更长期的愿景来说是

没有意义的没有价值因为你这个机械币它只能做这一个场景但我如果今天做一个就是拟人化的机器人它其实可以去替代人去做很多事它可能每件事都做的不是很好但是它随着它能力的演变它越来越可以让这个事变得很好

那 computer use 其实给我是类似的感觉我们过去用的 tool call 其实是需要开发者自己去开发说你这边有一个函数然后这个函数是干嘛的他要去执行什么动作才能够去完成但如今我们用 computer use 我们不再说其实我没有一个固定的函数我给你的是说这个屏幕的截图以及这个屏幕它大概是这样的一个内容然后你就自己去理解然后下一步动作做什么

给我一个很强的这种感觉不知道你们两位是怎么看说我们现在突靠到 computer use 然后包括 YS 说我们之前过去巨神智能以及这些机械臂的一个演进就是我自己其实就在开发中用对突靠本身用的不是特别多我用来实现这一个的办法就是我会把大模型本身当成一个非常万能的可以处理各种非结构化信息到结构化的一个工具

那我自己其实会自己去写一些东西让它输入成一些特定的 Python 格式然后再去写一些脚本然后去完成一些 HTTP 请求或者是做各种各样的事情因为我并不太相信大模型本身的这个 2Code 的这个能力或者稳定性因为尤其是我要完成一些特定的任务比如说根据一个屏幕截图创建一个日程这是我开发过的一个应用也开源在这个 GitHub 上

就根据一大堆非结构化的聊天记录他直接提取出里面的时间地点人物去创建这样一个日程那我在对这样的东西进行开发的时候呢其实我就觉得大模型很多事情非常非常的不靠谱那我其实就单纯的把大模型本身用来作为一个非结构化数据到结构化数据的转换器然后我还要再额外给他写一套这个验证的机制

然后以及在很多场景用大模型来作为一个判别器就比如他判断这里面有没有准确出现这个时间和地点然后给我返回去或者 false 我对大模型本身都是一个这样的使用然后再到后面居身智能这一块其实让我想到了一个点就是如果在大模型出现之前我可能得从 NLP 的各种库里去找

非常非常多的这样的这个轮子然后去让他去完成一些特定的任务再让他们组合起来但有了大模型以后虽然从最终能够满足应用场景的角度考虑我最后还是得自己去控制一些关键节点他的这个 JSON 或者是一些结构化数据到底符不符合我预期并且在尤其是在调用一些接口或者发一些请求的时候他一定是要是一个符合我预期的状态在这个点上我要进行一个管控但是在中间各种非结构化数据到结构化数据的这个转换

以及很多判别我就可以不需要去找各种各样的这个轮子比如说我去找一些东西去判别它的这个情感到底是正面还是负面对吧像以前我可能得去做一个这样的专门找一个这样 NLP 的包去做这个事情那现在所有类似的问题我全部直接丢给大模型你觉得它是什么就是什么然后带你给我述出一个结构化的结果

所以我觉得大模型的出现就会让大量跟自然语言处理有关的这个东西我就可以直接去用那所以我再往下假设就是到人型机器人和机械臂这一块可能最后到某一两个这个特定的场景比如说我要给人的这个静脉进行注射他可能是得有一个专门的机器或者说我要去完成一个特定的任务把一个电池塞进某个舱里那他可能需要一个特定的这个机器

因为它假设这一步它需要非常高的效率非常的稳定以及这个任务是固定的但是在中间的很多步骤我们其实就可以让这个机器人去自由地探索比如说它在一个完全陌生的仓库里去找到这几个药然后把这几个药给摆到某一个地方那类似中间这样非常混沌的场景我们没有办法去单独写一套算法做这个路径规划的这类场景那我觉得它其实就像变成了一个

人型机器人可能就像一个万能的浇水正如我现在用大圆模型以及多模态的大圆模型去处理各种自动化的任务一样其实我是把它当成一个万能的浇水在用那我觉得再往后可能在很多特定的场景比如说那个充电枪的那个插入我们显然不会去给汽车充电我们显然不会要求那个机器人他的手能突然变成一个这个插头然后插到车里我们可能也是期待他拿了一把充电枪插进去那可能最后这些步骤它是一个结构化的严谨的但中间各种各样的这个状态

机器人就能像大模型一样作为浇水区给它满足这是我自己在开发很多基于大模型的应用的一些感悟也让我对往后的这个有一些想象这里再补充一个点就是我为什么会对机器人这个事情非常感兴趣因为我自己本科学的是生物虽然我本科没读完我是高中就进了生物实验室所以是做了大量的这个生物的体力劳动所以从那个时候就非常关注各种实验自动化的这个器械

春雨突然说这个事让我想起来他这个描述我觉得很好就是当我们如果去处理一些混沌性的问题那我们可能的确需要的是居身智能但如果这个问题真的非常的聚焦它就是在工厂流水线前高度重复那好像的确是机械币是一个更好的方案包括可能比如说我们如果未来真的泛化到生活当中

可能生活当中我们平时偶尔去超市买个东西或者我们说我们要去做一个很随机的事情的时候那可能让巨神智能会做很好因为它可以适应各种环境但是如果今天我这个问题真的非常的聚焦我就让它扫个地好像确实也没有必要巨神智能让扫地机器人工作其实挺好的因为它不需要感知更上面的东西它只要感知地上这个 10 厘米以内的东西它只要能够处理其实就挺好了

我觉得这块还是一个蛮有意思的一个点而且我觉得也启发到我我觉得说这是一个很不错的一个视角可以看这个问题那 Michael 你怎么看对啊你说在智能手机出来之前不是每件事都有一个 device 吗对吧就是说可今天智能手机的功能比如它照相机它就比

正常的 digital camera 都好很多了所以我觉得通用设备其实是发展的方向就这么说因为其实以前也争论过就是说为什么我们一定要搞这种人型机器人机器人就是说是因为人是一挖两条腿出来但是机器人不一定机器人可以是用轮子那方面多了为什么非要搞人型机器人就是因为我们现实生活中的 infrastructure 大部分是为人设计的

就是说因为你要有轮子的机身你上不了坡爬不了台阶什么乱七八糟各种事你就会发现有各种事虽然说他在仓库的场景下可以比有腿的要好很多但是他在跟人交互的时候然后刚刚讲到 Tesla 我没想到像 Tesla 做自动驾驶一个非常重要的点就是他只用就是

Optical sensor 对吧它不用激光雷达就是说因为它的商品也是整个 road infrastructure 整个路上的东西都是为人设计的所以说我只要把这东西搞好了其实我可以少采很多坑而不是要去搞一个人看不见的但我可以看见的东西这中间就有很多就有很多问题对吧那拉回到我们这个讨论的问题上今天的计算机绝大部分是为人的眼睛设计的

它并不是为 RPA 设计的或者为自动化设计的所以我觉得用大模型的多模态的能力来理解这个屏幕上到底是啥玩意儿然后这个鼠标应该去怎么搞其实就是去模拟一个人使用它虽然说看起来是个非常低效的方法因为

你就会觉得比如说我在一个 webpage 上面我要点这个 button 我干嘛需要知道它在哪个 pixel 呢我只需要 pass 一下它的 dome 的 structure 我就应该知道它在哪然后我就 call 个 javascript 我用 function call 不是快很多吗但那东西泛化不了就是说因为那上面有很多那个屏幕上还会有很多其他东西你用这方法泛化不了所以我觉得他用大模型来干这件事情是把它能够进行泛化我觉得泛化这事呢它能够

就是一开始泛化的解决方案肯定比 specialized 解决方案要差一些但是呢他能干的事情更多所以我觉得就是 personal opinion 就是我觉得就会有人用有人用之后呢你就有机会去不停的去 improve 他而这个非常 specialized 解决方案呢只有专家会用或者只有 professional 会用那你最后就是一直就会在那个 niche market 里面对正常人来说越来越难用对所以我觉得走你人这条路其实我觉得是走得很对的对

就以前我没有多么大目心可能很难干这件事现在我们能了对我觉得 Michael 突然提到泛化这个问题让我突然意识到说 computer use 这个事吧如果你放在海外它有可能用的人没有那么多但是放在中国或者说我们此刻所面临的环境下这个事非常可能会变得非常的 make sense 因为其实我自己平时也会研究一些海外的这些创业的一些项目你会发现说海外做 SaaS 很容易而且海外的 SaaS 大家

对吧

有可能去通过突靠的手段去做的你只能通过类似 computer use 这样的方式泛化的去识别然后另外一个是刚才也提到说比如说像我们说点网页点一个道姆数可如今的这个前端的演进是我压根没有一个真实的道姆数对吧我全是一个 VDOM 所以对于你来说你根本不存在去用做突靠的基础和能力所以你只能靠泛化我觉得这是一个蛮好的观点而且

它可能也是我们目前为什么看到的是这个方案的一个很重要的原因包括我们刚才其实提到 API 我觉得说我自己其实真的在做了一到两年的这个 AI 的落地以后我会发现说我们过去其实或者说我们绝大多数人对于 AI 的预期和我们所真实面临的现实可能是有蛮大 gap 的比如说就像刚才我们在正式聊开始之前我们其实就快速简单聊了几句就是在聊 API 这个事儿嘛

就是我自己真正去陪着业务去走后会发现说如果我们把智能化这个事分成几步那可能会包含先数字化再数据化然后才能智能化我们很多的企业包括我们大家所面临的问题这些工作上的问题因为我自己本身做的是这种偏 2B 方向的这些 AI 能力

那他们这些场景可能绝大多数人真的不需要说给他们走到智能化这一步大家真的只需要一个 RPA 能够帮他们自动化去解决很多问题能够机械的执行很多问题就够用了我们现在大家想象的很多场景或者它往往可能距离我们真正能实现和我们真正需要的东西其实还挺远的说到这个我正好有一些想说的就刚刚 Michael 提到的泛化这个事情就很有趣我这边有一个真实的例子

就因为我自己其实做的是用 AI 去处理电脑上的文件相关这一块的事情然后如果用一些更传统的办法会有很多解决不了的问题我们现在去处理 PDF 或者是 PPT 这样的格式我们是直接把它当成一个图片的对象来处理这样效果能好非常非常多那上周我们一个真实的案例是我们在 Berkeley 参加了一个活动然后收上来了几十份简历然后我就只是想单纯的从这些简历里把它们

CS 背景的人然后名字和邮箱这个给我整理出来然后我让 HR 去逐个联系一下在这样的任务上我首先把这所有的文档都扫描了然后我把这个扫描后的文档发给 SharedGBT 发给 Cloud 他们都完全读取不了这个文档为什么因为他们读取解读 PDF 的方法用的是 OCR 然后 OCR 去处理这样扫描的文档就非常混乱非常差

然后即使是他 OSR 做得很好他可能仍然会把数字 E 识别成字母 L 就有非常多的这个问题那我自己上个月写了一个小程序叫 in and outin and out.topin and out 是美国那个汉堡店的那个 in and out 然后.top 然后我们当时这个事情的需求就来自于我旧金山那个 VC 朋友他需要处理大量的这个 BP

然后处理 BP 因为它其实是一个 slides 所以就是它你如果用 OCR 的办法你完全没有办法得到足够的信息它各种产品的图示那就把整个的这个东西作为一个图输入给大模型它能返回出非常好的结果那我就用我自己写的那个程序去处理那个伯克列的简历效果就非常好我就把扫描那个简历一股脑子传上去然后我给他写出你帮我把里面这些东西给提出来就得到了比 TreadGPT 和 Cloud 的那个更好的这样一个效果那为什么突然讲到这个事呢

就是在美国还有另外一个很有意思的点就是几乎所有东西它都有一个系统那比如说我去银行开个账户可能 Bank of America 或者 Trace 的人他其实要在那个 KYC 那个进行入路的时候他要做很多的点击和一步一步入路的这个工作那他那个系统可能是个非常古老非常混乱的一个系统那对于这种系统你去做个

RPA 也好首先比如说它可能在那个系统他们那个老旧的电脑上集成也就非常非常的困难然后其次它也可能就完全是一个内部自己写的东西或者不知道什么年代的东西你去识别各种按钮的对象你也不知道它到底是什么技术站它不可能用 Election 对吧就这些事情你都做不到那么如果说我们用一个更泛化的它是一个能够直接理解屏幕的这个多模态的这个解决方案的话那比如说我们去给 Trace 做一个这个征效的话我根本不需要它对这个系统有任何

我在它这个地方我在它这个显示这个地方我给它把这个视频的流给额外截出来我在上面相当于分出来就加个采集卡然后呢我在它的 input 这个地方我再去做一个这个输入那我可以直接让一个特别传统和古老的系统直接获得这个很先进的 computer use 的这个能力所以我觉得 computer use 它其实解决的不是说不仅仅是我们

现在每一个用户的电脑他可以很吃惊那在一些很传统的行业或者说他可能是一个上世纪 80 年代以后就没有人敢去动的某个工厂里的某个软件他有这样的这个界面那我直接去给采集卡把他的视频都采集出来再把他的这个输入端给去做更新那可以直接用 computer use 这一套逻辑直接对现有的这一套事件带来巨大的这个改变和这个增加那所以就刚刚提到这个泛化非常重要那也就是为什么如果

因为像刚刚说的就 OCR 的方式它就识别不了一些字符识别的不好那同样就是电脑上的各种操作我们直接如果再用方格宣扣也解决的不是很好但你直接用一个泛化的方式去解决它不仅能解决的更好并且可以让一些特别古老的场景重新焕发新生对

特别是 OCR 这个事我觉得说这个事里面它效果不好的一个最大的原因是它其实在做信息压缩就是一个 PDF 里面可能它的信息不止只有那些文字但是它本身呢它一 OCR 它就把这些信息压缩了而且它还识别不准就是导致这个效果变得巨差

然后呢我们就会实际感受说你这东西还是不如我这个去自己写一个很简单的程序去处理包括这个时候我突然想起来之前另外一个 case 就是我最近在写一些这些类似于 DockPuzzle 这样的应用就是因为 Chat PDF 这些是一个比较传统的实现嘛然后我最近在写的时候我突然脑海里蹦出来一件事就是

过去我们会借用很多 DockPasser 去解析文件那这一类程序呢都有一个最大的问题叫它没办法很好地处理那些扫描的 PDF 我突然爆出来一个脑洞说如今这个时代我们已经有多么太的大模型了我为什么一定要扫描呢我为什么一定要解析呢我把 PDF 直接转成图片丢给它让它去理解其实就好了呀

这个事我觉得是一个很有意思的一个方式的改变在没有多模态之前我们想到唯一办法是说我写到个 puzzle 我无论如何要把里面的文字解析出来但是现在有了这些多模态的能力我现在不需要纠结说我这个文字到底有没有我就把它转成图片然后传给我的大模型去理解就好了

我觉得这些东西其实都是随着说我们这些泛话也好或者说我们这种能力我们让更多的信息能够进来然后我们就不再像过去那样我们不得已我们非得把这些信息给压缩掉然后才能去处理这些东西对啊就是说因为你刚刚讲的这个 behavior 非常像人啊对吧就是说你把一个文件丢给一个人让他去看

他自己会 figure out 就说什么是什么对吧这其实就刚春雨讲的其实美国里面有大量这种场景比如说美国医疗里面大量在用 fax 就是什么 payment 什么之类的东西都是然后 fax 过来扫描然后扫描之后放到 EHR 里面去我这个是超级好人的工作所以这种东西其实就说你就直接把它就在上面把它那个 image stream 给它截了然后把

这个叔叔叔叔也把它 takeover 了这中间的人就不需要了对吧你就可以把这东西全部都自动化但我觉得这个呢就是说可能还会带来一些新的变革就是说一旦这个东西被大量使用了呢你就可能会有专门为这种模型进行优化的用户界面就用户虽然说这模型今天是它的能力是因为它能够像人一样去理解这个界面给人设计的界面这模型也能理解

可是慢慢慢慢你会发现可能我就是一个 hypothetical scenario 就是说这个模型它可能对某些界面会表现得更好更 reliable 比如说这个按钮更大或者什么这种对吧就是说比如就给老人看的界面我不知道我随便瞎说的对吧那就是就可能会有新的 user interface 不是给人看的而是给模型看的对吧我觉得这就有新的做操作系统做 UI 各种各样的机会就都来了是

说到这个就是我们最近在给客户做的一个 AI 搜索的这个服务上我们就没有再去用用谷歌的那一套或者是对谷歌就那个服务我忘了叫什么叫叫 Serpy 还是什么的没有用那一套东西我们直接尝试了一个新的就专门为 AI 构建的搜索引擎叫什么 Tavoli 类似这样的一个名字然后就直接发现用这个东西效果用 Tavoli 加那个 Gina 然后效果就

比之前比如说基于 Google 去自己搭一套类似 Publicity 这个效果好了非常多所以我就会觉得这个 interface 确实就会有专门针对 AI 的 interface 出现我觉得这个可能是我们马上会看到越来越多东西包括可能我们未来定义的 infra 也会发生变化现在我们的大量的 infra 其实是包人类去设计的

那慢慢可能就不太需要这些东西也包括说大模型在这个过程中因为它能够接受更多的输入输出然后它去承担这些交水层我们可能以前担心的很多问题都不再是问题了因为如果你的企业足够久就是说我们大家都会看到说企业里面有一些奇奇怪怪老的系统然后没有几个人操作然后只有几个人会知道那玩意怎么用然后现在可能说我们让这几个人把他们的 know how 给提供出来然后让模型去承载这个

好像也可以释放出更多生产力这好像也是一条路子就是这个东西可能也能够扬起一个很小的团队他就专门去做这个领域我觉得可能是有机会的我觉得在美国肯定是有这样的机会在中国咱们不太知道中国可能就是直接降本增效了我这边继续讲一下就像刚刚也提到 interface 提到胶水的问题它可能不仅仅是说适应于 AI 和适应于人的软件之间的 interface 的转换或者胶水它其实还是数字世界和物理世界的一种胶水

因为我在做文件这个场景的时候其实有很多人跟我说到未来某一个点可能文件就都不存在了之类的但是我会发现它物理世界和数字世界总是会有一些转换或者路口比如说打印机其实就是一个物理世界和数字世界的路口打印机和扫描仪那无论再怎么发展这些 SaaS 系统再怎么厉害

它始终这些仓库还会有它的曝光单存在它需要贴在物品上更好扫以及会有各种各样的表格传真然后甚至像我们最近一个经典的用户案例是他的妻子就特别喜欢把这个菜谱给打印出来然后在无数物理世界和数字世界之间大模型能够承担非常非常好的浇水去解决问题

那我们在美国和美国非常大的一个医疗企业进行访谈和合作过程中就会发现他们有很多的处理固定资产的单子或者是仓库出入库的报关单他一定得卡车司机线下签个字然后这个单子再扫描才能重新进入到他那个 SaaS 系统里那么有大量这种边缘的角落在我眼里它就是这个 SaaS 系统的最后一公里这个 SaaS 系统本身是没有办法解决的

那现在有了大模型以后这些教学能把这一切都给教起来那其实会有非常大的这个释放生产力的空间这么想的话我觉得说我们的多模特的大模型还是有很多的发展的空间的因为现在我自己看到的这些模型基本上要么是说它支撑的模态不够多或者说我们现在其实看到的基本上也就是文字图片和音频我们可能还需要更多的模态以及

更多的信息输入这样他才能更好的去理解我们这个物理世界然后才能够更进一步说去承担好和物理世界的交水的年龄这样的话我们可能更多想象力也就能够慢慢的发挥出来了我觉得这个东西确实是过去我们很多时候我们看到的东西会影响我们对这个东西认知我们看到大量的这些套壳或者说大量的他只做 prompt engineering 的事情

他就可以解决问题然后他没有去主动拓展然后也没有人去做这些探索新的东西的话可能就是想不到但是我们今天聊其实还是有蛮多场景是可以去做的只是说可能需要有一些人他真的去探索一下说在这个场景里可能就是多么太做的比之前会好很多然后可能也可以反推着模型公司去想一想说

哪些模态是我在下一个阶段要提出来的那说到这些那我们觉得说可能关于 computer user 我们已经聊了很多那我们接下来可以聊一聊说我们另外的 topic 就是说关于桌面化的 AI 因为我觉得刚才我还在和春雨我们在聊说我自己过去一段时间的实践是说我会在 chrome 上面去加了一些 API 然后来去实现这个对于屏幕的录制但这些东西其实都还受蛮多的限制

然后刚好呢纯宇他们其实也在做一些类似的尝试嘛我觉得说可能在上一个阶段大家的做的一些应用基本上都还是偏 SaaS 然后或者是应该叫是 BS 架构的大家就是用户侧可能看就是一个浏览器你就用好了但可能慢慢的我们会看到越来越多的这些 SaaS 应用而且它可能不再局限于说只有大厂的那些 APP 我们可能会看到越来越多的这些第三方开发出来这些小的 APP 他们可能就在某一个领域上去用

因为我自己的感受是说你如果纯做 BS 架构你会发现说你的能力非常受限一个典型的例子是说我在前一段时间我在做的一个东西是用大模型去实施给销售们做电话辅助然后呢我们可能就需要拿到很多它的音频它的视频这些逻辑然后我们会发现说我们在浏览器上去做这个东西难度非常大

可能我们最终的眼镜路线也是眼镜的时候我们最终其实可能是一个端上的 APP 然后大家电脑上一装它能够实时给你提供辅助我觉得这个东西可能也是接下来一个蛮重要的眼镜方向因为大家你用着用着可能你发现说我要主动去问这个 Bot 吧好像也没有那么好使因为有些时候你真不一定能知道它是什么问题以及说我们现在跟大模型的交互基本上是你得主动问它你先有一个问题然后你问它它会给你答案可很多人的问题是

他不知道他有什么问题他自己也没有办法感知可能下一步我们需要有更多的这样的端上的能力他能够自己主动的去感知到这个世界发生了什么变化然后他主动跳出来说其实你还应该做这些事情来帮助你去优化

那关于这个 topic 不知道两位有没有什么想法或者是自己的一些观点就是让大模型先跟你说话我觉得这个事就有些人会觉得 creepy 对吧就是说是就我这还没发生什么事呢他就突然来跟我打招呼了不过在我们社区里就是因为我们做了个边缘端的 AI runtime 叫做 wasm edge 这个 AI runtime 叫 lama edge 所以说我们有很多用户在边缘端产生各种 application 那我们其中一个 application 我觉得挺有意思的跟你讲的那个刚刚的比较有意思

他叫 Pastor Insight 对吧就是说他是我们在达拉斯的一个社区 member 做的他是一个非常相信基督教的人然后他想做什么呢他想做就是说我每天都有新闻然后这新闻呢都有不同的解读的方法有从科学的解读方法有各种各样的解读方法但是基督教也会有他自己的解读方法比如说

把巴依战争或者什么之类的各种各样每天的新闻都有但是呢每一个人对这新闻的解读方法怎么 comfortable 其实是不一样的就比如说啊就说一般来说你比如说让 CNN 去解读一个新闻他一般就会 both sides 就是说是两边各拿 50 大白然后就看着很公勇的样子很多人对这东西并不满意尤其是如果说你有一个非常强的这个宗教信仰你会觉得我需要站某一边对吧但每个人都不一样你怎么让这些人去解读这些新闻呢就说是所以呢他就做了一个 telegram 的 bot

Telegram bot 是它可以自动去拿到新闻拿到新闻之后用基督教的方法来进行解读但是这个解读是根据你和他之间的历史就是你和他对话之间的历史他能够分析出你喜欢什么或者你不喜欢什么

对吧比如说你的观点是偏左偏右然后他对每个人他是 customs 生成了一个对这个新闻的解读然后他在这个时候把这新闻通过 telegram 发给这个用户所以说到是主动跟这个用户讲就世界上发生了什么事他先解读一遍他认为你会对什么样的新闻感兴趣然后他把它主动推给你

然后在这个基础上呢因为这是一个 chat application 所以你可以继续跟他聊基于这个新闻继续跟他聊对吧那其实这个呢当然还是一个比较传统的叫 chatbot application 不过我觉得这个是一个可能跟跟您讲刚刚那个呢就有一点点神似对吧就是说是它是一个被外部世界 trigger 的东西对吧

那您刚刚讲的另外一个点呢我觉得很有意思就是说我觉得我们下面可能有我刚刚讲的可能有星座操作系统的机会可能更直接的是有星座浏览器的机会因为您也讲了您现在 Chrome browser

可能不满足需求了你要在里面装各种 plugin 我昨天才看见那个 Ark browser 的 founder 说 Ark 不继续发展了要做下一个 new browser 要做什么要做 AI native 对吧什么叫做 AI native 的 browser 我觉得这个就说是我们大家可能都有自己的想法就是这个东西是说我把视频流跟 AI 能够结合得更紧呢还是我更容易让 AI 理解这个文档的 structure 呢还是我就在里面加了 rag 或者我在里面加了 search 或者我在里面加了什么

所以我觉得其实现在是一个特别百花齐放的时候我觉得确实就是说这种 infrastructure level 的传统软件我觉得确实是有重做的机会因为在这一轮 AI 出来之前你是看不见什么东西能够打败 Chrome 的就是什么 Firefox 包括 Safari 之类的我觉得都完全不行了但是你现在突然发现 Chrome 其实非常 vulnerable 就是说是因为它 AI 需要的很多功能它其实根本就没有它就不停地要往里面装插件然后比如说有人说用 remote function call 或者说用 web services call

就我们刚讲的方向货可以解决很多问题但事实上大量的问题是解决不了即便在 computer 上面大量的问题解决不了比如说银行各种跟银行有关的工作和钱有关的工作都不行因为你都需要去你在 computer 上面要进行某种 authentication 肯定要指纹或者什么之类的这种是吧那你就完全不能就说是只用一个 remote call 的方法那么说

所以我觉得把这些功能是不是做到一个 framework 就说这不但有新的 browser 还有新的 UI framework 今天的 UI framework 都是 widgets 上面都是什么 windowdialog box 之类的这种东西我觉得未来肯定有就是说是怎么跟 AI interact 和怎么进行 physical action 像什么发 message 之类的我觉得这种东西和怎么 authenticate 对吧就是说所以是一点不成熟的想法吧

对然后像刚刚说到这些跟银行的交互之类的因为我就知道它涉及到很多安全的问题以及很多解决不了它是一个很典型的场景然后我觉得大家在解决这类问题的时候有的时候就可以不用局限于是 AI 或者软件可以招一个靠谱的人比如说我同事今天正好就在现场我是有非常多需要跟银行系统打交道的点我就直接跟这个同事说他就能去解决

其实这个就是我们在期待的未来可能 AI 或者巨神智能也出现一些这样的东西它就可以把这个问题给解决得更好然后在刚刚已经提到了就是说我们可能会在软件层面或者是整个数字世界 infra 层面有很多重做一遍 AI native 的机会我觉得其实不妨把对于多模态的想象想得再狂野一些因为我自己其实是生物背景

那我们会理解到生物它其实是一个对环境能产生反应的东西那么生物对环境产生反应它其实会得到大量的物理信号那我们现在这些多模态它比如说有语言文字当然这是独属于人类的一个比较高维的一个东西那当然

它还有视频的流以及还有音频视觉和听觉我给它认为各式一种模态我们如果完全地从物理世界或者从真实的世界的角度考虑未来的模态它可能会更多比如说空气中的气味它其实是一种化学感受器除了视觉和听觉感受器化学感受器触觉的感受器

那这种对环境中这种更丰富更进一步的理解以及对温度的这个感受那我觉得这些事情才是非常有价值的对模态的一个丰富那么从物理世界采集到更多的信息对于这个巨声智能的发展是极其有意义的那我们可能想要的并不只是说我们只是如何的一步一步把图片视频这个东西给解决更好只是一步的在电脑上的去把这个应用给做得更好因为我相信已经有很多人在做这个事

那么还有一个非常值得看的方向就是在巨神智能这个时代那我们有很多以往感受不到的东西甚至是我们人都感受不到但是物理世界存在的东西比如说对磁场的感应那很多动物它是有对这个磁场的这个感受期那可能比如说对中微子或者对一些更感受不到的东西这些东西其实都是这个物理世界模态的一部分

那这些事情我们对他的认知还非常非常有限但这一切他其实都可以被信息来承载又被信息来处理然后我们又可以通过各种各样的元器件去捕获到这些信息那我会觉得这其实是会真正的催生出一个超脱于人能力的一个东西因为我们可能很难想象一个人本身他能够对这些空气中可能十亿分之一的化学小分子

或者对于磁场或者对于温度或者对于这个粒子的热运动这些事情有一些感受但如果这些东西能够被那些很牛逼的实验仪器感受到它可以作为一个多模态的状态输入的话那我可能很难想象最后被训练出来这个系统它会是什么东西我们对于 AGI 的理解一直是 OK 它怎么去更好的去像一个人去像一个人去能够去识别环境中的任务去解决这些任务但如果我们想的再狂一点它其实是对于

各种不同尺度的这个信息不同感受器得到的信息进行一个汇总和处理然后这些信息它是可以被运算的话那我会觉得再往下走一步这个能看到的世界会大很多它可能就不只是说我们怎么去做一个更好的浏览器这可能真的会带来一个新时代的变革不好意思话题扯得有点远但我对此感到非常兴奋接着春雨这个话题就是我

我之前我也跟一些朋友聊过说我们为什么会有些时候我们会试着让 AI 帮我们去做一些决策比如说包括我的工作里面平时也会去做一些让 AI 去代替人去做决策动作我们会有些时候会觉得说 AI 做的决策很随机但假设我们今天真的把决策这件事抽出来看我们不看说是模型还是人我们回到我们自己去看决策的时候我们会发现说我们决策其实也是依赖信息我们不是瞎决策的我们不是随机揉一个骰子而是说

我们脑海里面有十条信息这十条信息当中某一条信息可能会让 A 选项被干掉

然后有一些信息会让必选人被干掉我们其实也基于这些信息来完成的现在因为我们没有这些模态所以我们只能说把它全部都压缩成文本然后交给大模型你去选但可能就像春雨说的如果我们有了更多的模态我们能够让模型原生的去理解这些模态之后可能就不一样了它真的可能就像人一样做决策我们现在只是没办法我们只能通过我们匮乏的语言然后告诉模型说大概是这么一茬子事儿

但他自己如果真的能够感受到视频音频所有温度这些所有的信息那可能自己最决策他可能甚至比我们更好因为他能够记住足够东西我们每个人所经历的事情和我们看到这些事情都是有限的所以我们今天才需要我们三个人一起来录节目对吧但可能未来大木星自己一个人就把这些事录完了因为他知道他有足够多信息来去

指导他去推演出他的下一个 token 他能够去产生这些东西我觉得这些东西还是蛮值得期待的但是说哪一年能看到这个事真不好说这个事刚才听下来我就感觉说这个事已经不只是这个计算机学科的事了可能也很依赖于材料学科看能不能把这些传感器再进一步走一走对吧然后搞意义的同学们说不定也要努努力大家才可能有更多的机会

对我觉得这东西就现在基本是玄学所以这东西比较科学对吧这东西叫恋丹就是说所谓元素周期表发现之前的化学就你不知道边界在哪里因为你总是觉得我通过某种化学反应可以把铅变成金子你发现元素周期表之后你才知道这俩是不可能的对吧你要通过核反应才能我们今天搞这大模型其实不知道边界在哪里所以到处试你看它今天就多么大这东西其实就是说 it's amazing it actually worked 对吧就是说因为

他就是把图片给非常简单粗暴的给分成一小块一小块的然后商务号他就能够理解对吧我们都不觉得这个东西能行但他就行了这个边界到底在哪里咱不知道就是说他还能在这条路上还能走多远那你不知道对吧所以我觉得这是非常有意思的在未来几年之内可能咱们会碰到这个边界咱们就知道了对

对我觉得这也是个好事就是当我们今天所有人都知道它的边界在哪儿的时候我们可能也就没有了希望正是因为说我们不知道它的边界在哪儿然后我们觉得说这个行业还是有一些值得我们期待的我们还可以想想说可能还是有很多东西值得我们去做去努力的

那关于这三个主题我大面上的内容都已经结束看看大家有没有什么别的想聊的或者是沿着这些主题觉得刚才没有聊到的就是我觉得这些像多模态的这个出现以后它能够解决很多很多的问题然后它很重要的一点就是这个交互方式的改变

那以往我们之所以会需要去点按钮会需要有这个输入框恰恰就是因为我们要去把我们输入给计算机或者输入给算法输入给系统的东西去这个结构化那恰恰是因为多模态的出现或者说大语言模型这样的这种浇水的这个出现那我们可以用语音随意的输入它也能理解我们到底想干什么我们可能拍一张照或者一个屏幕截图它也能理解我们想干什么所以我觉得未来会在人机交互这一层会有一个很明显的这个变化

那现在这个软件它之所以要设计按钮要设计输入框要设计这个下拉选择那无非最后就是把这个结构化的数据去传递给这些程序那如果在更之后它已经不需要去这样做了那么它这个软件的这个界面这个交互形式它可能会有完全不一样的变化那我们现在已经能够看到一些端倪就比如说我们用语音去完成一些事情或者说在我们的眼镜上装一个这个摄像头

以及这个电脑的屏幕可能会被分享那我觉得在这里面可能也会有一个类似鼠标出现的这种时刻它会有这种新的交互方式的产生我觉得这个我特别赞同就因为我最近去买了一个 Meta 那个眼镜它不是 Demonstrate 的下一波而是它在市场上最近有的我觉得很有意思那个眼镜上面有一个小的照相机然后你可以拿本书在它面前你跟它说 MetaLook and summarize what's on the page 它就会读那本书然后告诉你上面是什么你

你会说 look at ittranslate into French 他就会把英文书用法语给你念出来在你耳边我觉得这就已经达到了我对这些东西的需求了就是说这个眼镜最近它的区别是什么这个照相机子在哪但以前大家都认为是个 creepy 的 feature 因为你趁着人家不注意你就给人家照相对吧你说是都觉得戴着眼镜的人都很 creepy 但是现在你突然有了大模型之后这玩意儿就是我们刚刚讲的这事就是这个大模型的泛化能力让它能够在人的环境中看见

就是说你人 interact 的东西他也能理解这个我觉得这个是个非常重要的东西这样的话他就可以像人一样就是他就可以真正变成一个眼睛来帮你去去分析你的周围或者什么什么这种对吧我另外一个想要讲的事情呢我觉得就很有意思就是说像 computer use 这些东西呢现在是被 entropic 这样的大模型公司先发布出来的但我觉得这东西呢有点屁股绝对脑袋的事因为我们是搞开源的我觉得这东西呢开源是非常大的利好因为

因为什么呢就是比如说我刚才讲的 computer 上面这一类的东西首先它对实质性有很高的要求其次有很多 sensitive 的信息我不愿意传到什么远端的 SaaS 上面去进行处理而且另外一个就是它的稳定性可靠性可能不是通过一个就说是 one size fits all 就是同一个大模型能够稳定解决所有场景的事情

所以我可能还需要 fine tune 还有各种各样的东西我觉得这就非常 speaks to 我 fine tune 的模型然后我在自己的机器上面运行在终端设备上面运行这样的模型我觉得这是对开源的一个很大的利好因为虽然说开源发展了这么长时间而且也接近 GPT-4 的这个水平没有达到对吧

但是你会看见在这市场上因为大模型的 SaaS provider 有非常多的竞争所以他们都在亏钱 offer API service 所以说你就在 cost 的这个方面其实 open source 并没有一个很大的 advantageopen source 以前就是免费所以大家都用但现在你在 hosted 的 SaaS service 比它还便宜因为那边都补贴我看见一个 statistic 说现在用大模型 95%都是用 SaaS API 大概只有 5%是用真正的 open source

但我觉得这种 embody 的 AI 这种巨声 AI 巨声大模型和咱们刚刚讲的这些非常 personal 的直接看见的就是我看见的东西然后 react 就是我要去 react 的东西这种东西呢我觉得在开源的市场上我觉得更有价值也更有应用场景所以我觉得这个是非常 encouraging 的地方就是说因为毕竟像我们这种开源项目或者小公司我们说开源了我们就开源大模型我们说开源的 run time 对吧那就说如果大家都去用 open AI 的话那就没占什么事了对吧所以他们干的这事我觉得还挺 exciting 的对

从我自己经验上来看的话我觉得开源大模型大概率是会持续活下去因为我自己真的在去做 2B 的业务的时候你会发现说 2B 厂真的非常在意这个事情他们一定会走到说我是要自己去做这个 SFT 的事对

对这个是跑不了的你可以在前期验证的时候你可能就用大家的 SaaS provider 去调验没问题用最强的模型验然后验完以后一旦到真的落地这个时候可能大家就还是开源模型好一点所以算是对我们开源社区的一个蛮大的一个利好

对是的在我这边这个实际的场景因为我 Rifle 做的是解决用户电脑上的文件嘛那包括文档包括图像有多种模态的这个文件也包括音频那么我们现在就已经其实是在我们在做这个 OnDevice 就是直接在电脑上运行的这个模型因为用户很多文件是非常这个隐私的那我们就已经在用各种开源的模型去实现类似的这个效果也能做得非常好

然后在文件这个特定的场景上比如说对于总结货的命名其实我们是可以对模型进行 fantune 它可以让更小的模型去达到更好的效果因为像现在比如说你用一个 0.5B 的模型它其实很难理解什么叫这个简洁精炼的用一个 JSON 格式去输出一个文件名那你用大点的模型 7B 它就能很好理解

但如果你去翻 Tune 一下,OK,一个 0.5B 甚至 0.3B 的模型,它能够非常好的把一个文件的这个总结给变成一个就能看到文件名,而且这个数据得到也不难。所以我觉得在这种特定的任务上,就是可能会有一些这种 0.3B 或者 0.几 B,或者是它可能就是直接跑在某个单片机里的这些模型,会直接让现在这些设备它的这个智能水平,或者说能解决问题的能力强很多。

好那感谢今天的我们的所有的听众朋友们然后我们这一期关于 computer use 关于周面 AI 以及 action agent 的 topic 到这里就结束了如果你对于我们今天聊的内容有任何问题或者想和我们的嘉宾交流的欢迎大家在播客的评论区当中和我们留下评论然后我们会看评论和大家沟通大家也可以加入到我们 RTE 开发者社区当中和我们大家一起去聊不管是 AI 的问题或者是

RT 相关的问题感谢大家的时间我们这期到这里就结束拜拜拜拜再见

感谢您收听本期节目本期播客节目由金金乐道制作播出您也可以在我们的官网 dao.fm 找到我们的更多内容作品如果您喜欢我们的节目欢迎在微信微博朋友圈等社交媒体转发分享您的分享对我们而言十分重要如果您希望与我们互动可以关注我们的微信公众号金金乐道播客天津的金欢乐的乐道路的道在关注后按提示操作即可加入我们的听友社群

能操控电脑的 Computer Use 究竟是什么？万能胶水、旧世界操作员，还是无所不在的智能？ 51:32 Share

编码人声

Deep Dive

Shownotes Transcript

能操控电脑的 Computer Use 究竟是什么？万能胶水、旧世界操作员，还是无所不在的智能？