马农姐妹是一档科技女性的访谈类播客主播蔡才是一名工作八年的后端程序员节目邀请了来自不同领域和多元文化背景的嘉宾我们一起打破信息壁垒深入了解不同的科技岗位在节目中你会听到服务端开发测试开发工程师项目经理数据分析师产品经理等多位嘉宾的成长故事听他们聊聊个人成长职业规划和女性领导力等话题
往期节目中主播会收集马农姐妹信箱的听众问题和嘉宾一起探讨节目双周更新 欢迎各位来玩大家好 我是蔡蔡 欢迎来到这一期的马农姐妹我不知道大家有没有听说过最近 AI 编程发展非常快我经常在自媒体看到有宣传说使用 AI 小白也能写代码或者看到文章说一行代码不用写就能用 AI 做一款产品
也看到了随着大火的 AI 编程工具 Cursor, Daven 的出现很多人说程序员这个职业危险了经常听马农姐妹播客的听友可能知道我是一个互联网大厂程序员由于工作关系呢最近两个月也一直在研究 AI 编程工具
有很多心得体会想要跟大家分享马农姐妹的听众大多都是程序员也有一部分听众虽然不是程序员但是对科技领域非常感兴趣我们的听众刚好覆盖了 AI 编程工具的两大类用户会写代码的工程师和不会写代码但是希望用技术能力做一些事情的人那我们今天就来聊聊关于 AI 编程工具的几个热点话题
以及 2025 年了 AI 编程能为我们做什么今天的我有邀请了我们另一位主播 Kiri 那 Kiri 也来跟大家打个招呼好的大家好我是 Kiri 对不太熟悉的朋友也稍微做一个自我介绍我是在
美国一家金融公司做 AI 相关负责续战模型做一些 AI-driven 的这种产品所以我们也一直非常关注 AI 编程这个领域因为我们在金融公司一些
合规性的要求比较严格所以目前在工作当中我们还没有正式的去用 AI 编程但是我自己的一些个人的这种 side project 个人的小项目上面是有试过一些 AI 编程的工序的
我们几个对 AI 编程这种号称要革程序员命的工具的发展特别感兴趣确实这个 AI coding 这两年尤其是 2024 年真的是大获本期还得感谢一下满龙姐妹智库之一的 CO 们提供了几个话题
那我们先来聊聊第一个话题就是要说因为我们这期要聊的是 AI 编程工具那我们先聊聊 AI 编程工具的发展我认为随着算力和模型能力的提升现在业界认为 AI 编程的发展有一条挺明显的一个自动化演进的路径就目前来看按照自动化程度大概能分成三类
第一类以早期的 GitHub Copilot 为代表的代码补全工具这类工具主要是想给大家提供实时的代码提示和自动补全的功能写单册做知识问答不过当时它是没办法主动去跟写代码所以自动化程度相对比较低
但随着技术的不断进步这类工具也在朝着更高级的智能编程的助手的方向发展慢慢地融入了更多自动化的功能这类的产品有 GitHub Copilot 百度的 Comet 早期它们更多是一个旁边的一个助手辅助你去自动补全
第二类是以 Cursor, WinServe, Boot.new 为代表的半自动化编程工具我认为这标志着 AI 编程进入了一个更高级的发展阶段这类产品的亮点可以感知当前代码库不只是进行代码补全还可以使用 agent 模式批量修改多个代码也就是说具备了完成特定链路的
业务开发的功能虽然自动化程度提高了不少但是还是需要开发者去不断的介入做出各种判断那 Cursor 当前的重点呢也是 AI 自动化的提升第三类就是以 Dyvan 为代表的半自动化编程工具这类工具的自动化程度是最高的 Dyvan 号称不仅能写代码还能自己调试部署程序甚至能学习新的编程语言和知识
与 Cursor 不同的 Devon 的目标是适配整个软件工程的流程设计上也更加拟人化我还用过它我看到它有个 Go to sleep 功能然后用户只需要下达任务指令等着出结果就行了他们的设计目标就是希望能跟真正的程序员一起协作干活一样
那我们回顾 AI 编程工具的发展历程能够很清楚的看到是一条从辅助到 AI 自主的一个演进路径第一代的代码补全工具主要是为了提高专业程序员的编码效率用户更多是专业的程序员通过代码补全这些实现我们的开发加速
后来像 Cursor 这样的半自动的工具又把 AI 的能力进一步的拓展后来 Divine 的出现它更希望是全自动的编程实现从需求理解到部署的端到端自主开发这样 AI 编程的工具它的用户一下子就扩大到了非程序员的群体
这转变是大大降低了编程的门槛让 AI 编程工具的受众一下子扩大了很多因此也引发了大量的关注我可以稍微加一些个人体验方面的在 Copilot 刚出来的时候很早的时候我纯好奇就去试用了一下但是其实比方说像 VS Code 之类的一些编码工具一些 IDE 它是有自己的补全功能的
但是它的补全功能相对没有那么智能比方说你前面写的 EF 它后面会给你自动配上 else 它是纯粹根据这个语法一些 rule based 的硬性规定的一些规则去给你补全一些东西 Copalette 是比那个会稍微智能一点它是会去生成你要写的代码
什么写小说就你给他一个开头他可能叫 openAI 之类的这些东西他都会自己给你往下继续编但是他编的不一定对也不一定是你想要的最开始的 Copilot 有同样的问题我自己会觉得作为一个熟练整天写代码的程序员会觉得用它可能比我自己要低效一些他写的东西不一定是我要的我还要去改
与其我再去改还不如我自己就直接把它敲了这个是最初版本的 Copilot 后面 Copilot 我就没有再用 Cursor 我现在用的还蛮多的我自己觉得它对它就有点如果我们类比自动驾驶它有点像现在的很多这个车厂说它自己会有的那种自动驾驶的功能有点像自动巡航的这种但
在比较简单的速求下面像自动巡航就开高速就跟在前面的车 Cursor 也是一个在你能说清楚需求你只是自己懒得写
你可以让他给你写写完之后可能你还可以去跑一跑或者说去改一下一些东西尤其是我自己是写会比方说 PyTouch 或者是 Pencil Flow 去训练一些模型训练一些 Motion LearningDeploying 的模型他有一些 code 是非常城市化的可能几百行的 code 里你只需要改中间的几行剩下的前前后后都是一些 PyTouch 里面的那种套法
像这款你让 Cursor 帮你把它写出来非常容易你只需要改中间的那些行就可以了 Diven 其实我自己没有用过我有听过一个播客是关于有一个做 Diven 的开源的版本或者他尝试复现这个 Diven 那个叫 OpenDiven 这样的一个 Keyboard 上面的 Ripple 我听过一个播客采访这个做 OpenDiven 的一些人
他们是说 Open Daven 会自己去解决 Github 上面的 Ethos 就 Github 上面有一些 Ripple 上面其他的人可以去提一些 Ethos 或者是我有一个新的需求或者是我发现了你现在的代码里面的一个 Bug 跟我提过去
你这个负责维护这个代码库的人或者完成我的需求或者把这个 bug 解决掉 OpenDiamond 它已经可以自己去看今天新出了哪些 GithubEssue 是其他的用户提的它自己去把这个 Essue 解决掉去提 FullRequest 去聘他的合作人的这些程序员说你来帮我 review 一下这个 FullRequest 如果可以当时那个播客就是开发 OpenDiamond 的这个人说他们已经做到就是
OpenDivine 是解决 Ethio 提 PoolRequest 的最多的就是比人的程序员要多很多这个也很正常 AI 肯定他又干活又不累他们大多数的时间只需要去 review 这个 OpenDivine 提的 PoolRequest 不太用自己写的我觉得这个是一个非常好的这种像 Divine 这种从头到尾可以自己写代码自己跑
一些单册自己去 deploy 一些东西他可以跟人互动的方式是他提一个 pull request 然后人去 review 他的结果之后他决定要不要 merge 到这个主代码里面去我是有 Dylan 的账号的但是我试用了一下包括身边的同事试用一下就觉得退回使用客丝了 Dylan 他的设计是希望打通整个软件开发的流程不仅能写代码调试
还能部署跟整个 GitHub 打通像你刚才说的能处理一些 Pull Request 但是它特别贵一个月 500 美金对没有像宣传那么好就经常目前使用着来说经常会陷入错误的细节就不可自拔了当然客丧也会有这样的问题而且它的享用速度也比较慢我不知道这个是不是因为我们和国外的网友区别
而且是像我们在公司里的研发这个是要跟公司的研发工具要集成的这一部分 Divon 的表现不理想就没办法去跟公司的一些代码库和研发我们部署的流程去集成只能是 GitHub 以及有限的它能指定的几个工具我听说 Divon 的推定率还挺高的对我觉得 Divon 的目标应该是取代程序员或者说至少是取代初级程序员
它比方说可以有高级的程序员去 review 它的 code 它是要独立的去完成一个任务的 Cursor 这种是主注程序员所以它是并不打算要独立完成任务的但是你作为程序员来说
你肯定是希望有一个助手而不是一个同事你用一个助手肯定比你用一个同事要舒服多了但是可能一些其他的职能的人比方说产品经理比方说一些公司的领导他可能觉得可以用 Dyvan 去取代程序员像你说的程序员来说就便宜很多对他可能不能取代高级的程序员但是他如果说他取代初级的程序员而且他其实
他 500 刀我不知道戴文收费机制是因为他取代一个程序员是 500 刀如果他取代 10 个程序员是不是也是 500 刀对他是每个月是 500 刀有一定的 ICU 但是如果有一定的使用份额可能他到一定程度是可能不能取代 10 个程序员
他可能需要两三个账号取代十个程序员但是还是比低程序员便宜多了蔡才刚刚说的 Aven 有些人用的时候会纠结一些局部的小错误自动驾驶也是这样的之前会看到一些社交网络上面分享的视频这个车训练的时候你肯定不能撞人你的这个传感器感受到了人你就应该停下来或者怎么样但是
除了你训练的时候你是在什么高速路的对况上面训练或者说在矿业里面训练或者怎么样加州就好多人尤其是那个那种大厂的工业园区里面加州的其他地方大多数的地方是相对比较偏这种私家车的交通你可以开车你可以驾驶但是不太会有新人但是在工业园区里面比方说那几个大厂的这个 campus 在地就会有好多人中午出来吃个饭下午出来遛个弯什么的
人其实在人行道上面走的他那车的传感器感觉到了旁边有人他就停了他人并没有在他车的机动车道上面其实他那个车正常往前开是不会撞到那个人的但是车感受到了车就停了因为比方说打车的这个人你只能坐在乘客的位置你这个时候可能就非常想去把他踩一下油门让他前面走尤其是你打车你可能还有一些时间限制你可能还赶时间
但是这个车你不能操作它当时是有很多乘客发过一些视频这件事情我非常抓狂那其实这种是极端的场景一些边边角角的场景没训练到导致的你很难训练到所有的场景这个就是对一直面临的自动驾驶出现好多年了
有公司做这个或者说有些人挂这个饼吹这个前景这个东西吹了好多年了相比于这个 AI 编程 AI coding 来说对但是自动驾驶你也很难训练到各种各样的边边角角的差异所以编程工具确实也遇到不仅是 DiamondCursor 也会遇到我再用它写前端因为我是后端程序员不会写前端然后我就试着用它做了几个前端的项目
在我那种完全不懂的情况下让他去写前端代码很容易出现他纠结一些小问题他就出不来了如果这时候我要懂那我可能就直接上手干了要不懂呢我就怎么调都调不好干着急也会遇到这类的场景对还是跟自动驾驶现在说辅助驾驶其实做的已经蛮好的很多车上面都有一些辅助驾驶这个用户了他可以自己操作这个车
但是人一旦操作它你就会 overwrite 会凌驾于这个车的自动的这些操作之上如果说这个车自动驾驶它觉得应该往左拐这个时候你方向盘往右打这个车就随着人往右拐同时又要求你开车的人还是要有驾照还是要会开车虽然你的车上面有自动驾驶写代码的领域现在
主要的两类用户也就是有驾照的类似于我们有驾照的有程序员专业的程序员他会用客串写可以 Human in the Loop 是人工菜介入修改还有一类是不太会写代码的这是 Dyvan 这类的一些包括
Bolt 其实也类似了对这类的希望是能够替代整个人但是会遇到这些边边角角的很多这种边边角角的问题对但是像 Dyman 这种他的目标其实本身就比较难以达到他
本身就是要花更长的时间去做好这个事情的那讲到这里可能听众朋友会好奇我们提到了有 Cursor 有 Devon 还有 Bolt.new 这三个产品有啥区别我先简单讲一下 Cursor 是我们刚才提到主要是为程序员提供全方位的编程辅助可以去写代码也可以去补全它最新的功能还有我经常使用的就是 Cursor 的 agent 功能
只需要输入一段明确的需求并且带上业务上下文 Cursor 就能批量的创建修改代码文件然后一次性实现功能非常方便当然了这个最终实现的效果的好坏就取决于我们这个上下文说的怎么样以及我们人要介入要多次的调整我现在的日常开发会先用 Cursor 生成第一版代码然后再进行 review 调整
Cursor 有一点我不太适应的是它是基于 VS Code 开发的是 File 出来的一个分支去改的对于我这种 Java 的程序员来说我从 Idea 切换到 VS Code 确实需要一点适应时间就用起来最开始用起来非常别扭
另外我也听说那些没有编程经验的产品经理和运营甚至是独立开发者他们也在用 Cursor 去做产品比如最近在 App Store 很火的小猫补光灯就是一位没有开发经验的产品运营通过 Cursor 做出来的那总结一下 Cursor 呢是更多是专业程序员用有少部分是独立开发者用想象是结合代码库有 agent 模式利用自然语言去生成需求
Cursor 呢我之前听过他创始人的演讲是核心思路是造厉害的工具让 Human Developer 变成 Human Super Developer 当前市面上的 AI coding 都是针对于非开发但满能力较弱的人群从零开始搭建显而美的项目对于
更有经验的大型项目怎么去高效的用 AI coding 这个 Cursor 可能会比其他的两个工具 Bot.new, Devon 效果要够好一点那这里提到 Bot.new 就是专注于网站开发
它的优势在于就没有编程经验的人我纯是爱用自然语言用户输入自然语言就能出现一些就能生成一些界面美观的网站大大降低了开发成本它的原理是在浏览器里造了一个 node 的容器去部署
我自己用 bot.new 是做过了一些小工具比如我做一个播客的语录生成器输入马能姐妹的播客文字就能自动生成适合小红书发布的图片背景还可以自由选择效果还挺好的如果没有这个工具我就要花费很多时间做图
我也听说国外有人直接用 Boot.6 做出产品卖给用户因为它是有一键部署的功能非常方便相当于它是希望打通开发到部署但是更多的用户
用户用它呢是从 0 到 1 的一些小项目对这样那 Diamond 像我们刚才聊的是希望打通软件工程开发部署开发调试部署以及测试的整个流程还有上线像你人的一些设计这样这是他们仨的一些区别对我自己用 Cursor 的另一个场景是看一些公开的代码看的时候可以问他
有一些不太显然的说它这一行代码为什么要这么写看起来好像没有这行代码也能实现这个功能它为什么要加一个这样的一行代码一般
我看克瑟给我的回答还都挺对的对我现在已经大大臣服在克瑟的魅力之下了但我觉得你之前咱俩前面聊的一句挺对的怎么能用好这个克瑟把这个上下文给他说清楚不同工作年限不同的人
能说这个说上下文还是挺不一样的对我自己其实没太用过 Bolt 和 Dyvan 这种就是从头到尾自己去完全独立开发一个东西的工具我自己用我不知道在那种你要把那个需求给到多细
还是说你可以先给一个比较粗的需求比较大面的需求你再逐渐去细化比方说我先做一个网页我先告诉他这个东西要干嘛后面你再说把每一个功能给我做成一个什么样子但是 Cursor 反正 Cursor 的这个需求是可以逐渐细化的一句一句跟他去细化去讲然后他会把这些代码给你改好
这就是两种使用方法一个是不差钱的方式这种呢就是仔细一点的方式因为每次使用 Cursor 它现在也是收费的嘛如果是最开始写一个挺粗的一点条就挺费 request 的 20 美金一个月是 500 次 request 我上次用 Cursor 去开发了一个浏览器插件
因为浏览器插片全是前端的代码我确实开发成了废了我大概得有七八十个 request 我一句一句给他输 OK 对如果要是说的特别详细呢这就是取决于你的
产品设计的一些你得最开始去写一个文档然后这文档呢把你自己想要的东西就类似于写产品经理写一个 PRD 写得非常清楚而且是这个很花时间我理解再粘贴到客丝里这种可能就是一次性的成本
当然也得再微调因为产品也会经常改需求我在写 Cursor 的我们聊要写上下网就给他提需求还有几个经验我可以自己先是在那个文档里去写清楚自己的需求我一般会把它粘在 Bot.6 的它有个输入框它有一个功能叫 Profit Enhanced
它会把它这个功能免费的然后会把你的上下文直接给你优化一下我记得你之前跟我讲过有人专门去研究这 Property House 对这优化还挺好的它一般是有一些标准
他会根据这个标准去优化你的 prompt 就比方说你的 prompt 你的 PRD 是不是说我随便编的标准他的标准应该比我的这个靠谱一些是不是说清楚了你的需求你的这个需求有没有需要再去澄清再去 clarify 的部分
就它会有一些这样的标准你的需求是不是完整你的需求是不是怎么样它可能是对它背后的机制可能是去依次验证你是不是符合这些标准如果不符合或者告诉你说比方说你的需求不完整你应该把它
把它完整化或者是就直接帮你把它补完整如果它能够补完整对这功能它好它能把我的一些土方一下子就说得非常高这种是对它的那种表达方式之类的对这方面它完全可以对我就先把自己表述一遍粘在这个 Promptly Enhanced 里它的效果
他给我改过之后自己再 rate 一下然后再给 cursor 用这是一种方式我刚才是提到是在 boss.new 里有这个 prompting host 在那 kimi 也有一个功能都是免费的所以我觉得这一点还挺有意思的我猜测如果有多年经验的产品经理他对他了解 PRD 这种文档应该有一些什么样的功能我自己也可以
写一个就是 prompt enhancement 的 prompt 去提升你的 prompt 的这种然后把这个 prompt 喂给那个 openAI 的就是 TrendsGPT 之类的然后可能也可以做这件事情像你说的把各种角度让他去 review 去增强对就是说一个好的 PRD 我需要满足 12345 这些标准标准一是什么意思就是给他一个解释标准二是一个什么意思
你看下面的这个 PRD 是不是满足这个标准那我想进一步再咨询一下像 Bone2.6 我刚才说这个 Prompt Enhancement 它的实现原理也是写了一个 Prompt 只是这 Prompt 要制定了很多标准仅此而已我猜或者是它有可能是用很多个 PRD 训练过它这个模型它大概知道这个东西应该写成什么样子
就相当于这块有可能也是一个专有的能力的一个模型对它可能只是一个 prompt 去说你给我验证这些标准根据你的验证结果去提升 PRD 或者它是一个专门在 PRD 上面翻听过的一个小模型
这个还挺重要的就我们用这些 AI 编程工具代码写成什么样就我觉得完全取决于一是模型的能力现在都用的是 Cloud 3.5 Sonnet 或者也支持了 DeepSeq 这是基础在这个模型的基础能力之上把这代码写成啥样就取决于
我们提的这个商家文的诉求有没有很清晰明确对所以后面可能程序员就会变成提需求程序员的面试你给我把这个需求细化一下对你说到这里还真是因为前一阵有一个零计算的 SaaS 的服务商叫 Salesforce
他说他们内部在考虑因为 AI 写代码已经非常厉害了他们内部在考虑整个新的一年就不招程序员了想要用 AI 的开发的一个高效率去替代人类就不招程序员了这在很多国内的公司也引发了讨论
那我们的整个的因为 AI 写代码肯定是一个未来的一个趋势 24 年第一年就已经到了这种程度那后来肯定会越来越厉害那我们整个的人员招聘代码的组织是不是都要进行一系列的变革像你刚才聊到的招聘的方式那以后我们再招程序员是不是就要加一个考察点是要看他会不会使用
AI coding 以及怎么去给他一个 task 怎么去用 AI 的能力去完成对我们也内部讨论过这个话题对这个话题我们可以聊那个一个角度是我之前跟一个人聊过聊我觉得现在会有很多人几年跳一次槽这个几年可能
我们这个年龄段的人还是属于五年左右跳一次堂是一个我们觉得可以接受的一个可能再年轻一点的人可能就两三年跳一次堂我跟那个人聊的时候我是说像我父母那一辈他们甚至不是 work for a company 他们就是单位他们我做这个工作我就一辈子做这个工作基本上就是做到退休那个人就我说的是他大概也有三个孩子他的三个孩子现在可能
四到七岁到八岁这样子他说我们这一代就已经没有稳定工作这个概念了可能我们的孩子等他们长大了他们那一代就没有工作这个概念了就 what does that meanyou have a job 就是你为什么你有一个 job 你有一个工作这是个什么概念
所以你说我们以后招程序员以后可能就没有程序员也没有面试也没有招聘这种过程对不光是没有程序员的可能很多现在的工种都没有了即使是大家肯定还是要赚钱的赚钱你生活是需要这样的一个机制的但是可能大家赚钱的过程
比方说如果你有很多工具你有编程的工具你有什么可能将来也会有自动去写一些 PRD 自动去写这个产品文档的工具你只需要一个 idea 你的这个 idea 你用这一堆工具就可以把它变成一个能赚钱的东西你就可以赚钱养活你自己所以每一个人都用他自己的 idea 养活他自己也不需要去面试也不需要去准备面试也不需要去研究
我招程序员出什么样的面试题这个程序员我找工作需要准备什么面试这就和之前的一个话题 AI 实在会催生很多超级个体应该是类似的对但这种可能都已经不是所谓的超级个体每一个人都必须要成为这样的一个个体你才能
赚到钱我也想过这个话题企业它也应该还是需要一批程序员的只是这一批程序员是适应 AI 的再往后发展可能是技术到一定程度几年之后那可能企业还是会需要程序员但是这批程序员得是用好 AI 的这批人应该是对我觉得 AI 跟之前的这种互联网的这种技术革命是如果不是比之前的互联网
但是他们也全都是
能正常使用互联网的能非常熟练使用互联网所以以后可能所有的岗位都要熟练使用 AI 那这就回到了我们的新的一个话题就是 AI coding 就 AI 编程是捐风口还是假炒作它都不像
这我也做了一下功课它到底是真风口还只是资本市场的炒作呢那既然聊到风口我们就先看看 AI 编程工具在估值和融资方面的表现吧
2024 年是 AI 变成突飞猛进的一年这我们大家都知道就是用迅猛都不足以形容它的速度了就是说 CursorCursor 是仅仅相隔四个月它的估值就达到了 26 亿美元而且 Cursor 的收入是从 4 月份的 400 万美金 ARR 年化收入一直飙升到 10 月份将近 5000 万的 ARR
按照这个数据来算它的估值差不多是年化收入的 50 倍我所在的公司虽然有自己研发的 Copilot 的产品但是由于科色的能力还是太强了所以我们公司也会给程序员采购科色所以我觉得国内的这些互联网公司应该是科色的一个大用户给他们贡献了不少年化收入我们再来看另一个报款产品 Boot.6
BOT.6 在仅仅推出 8 周后年化收入就从零飙升到 2000 万美元注册用户也突破到了 200 万
David 更厉害当时他号称是全球首个 AI 软件工程师在产品还没推出的情况下仅仅有一个宣传片就以 20 亿美金的估值抽到了 1.75 亿美元然后这些 AI 编程产品的估值和融资新闻中我们能清晰地感受到 AI 编程领域确实备受资本市场的关注
除了融资方面的火爆我们也能看到很多企业它在布局 AI 编程比如我们刚才提到 Salesforce 由于 AI Agent 带来的生产力的提升他们号称 25 年要停止招聘新的工程师然后其他的科技巨头就跟上了 Jobbox Google IBM 等科技巨头也纷纷加入到了 AI 相关的裁员行列
这就能侧面反映出他们对 AI 编程能力的认可和布局另外 AI 编程的渗透率也挺高的我查 Google 的资料他们写超过 25%的新代码是由人工智能生成的 Datahub 表示它目前新写代码是 30%都是在 Datahub Copilot 辅助下完成百度也是类似的数据
国内阿里云的通一领码 AI 程序员也上线了开始内部推广直接跳动有 MaskCode 豆包编程最近还推出了对标 Cursor 的我不知道它咋读叫 TRAE 我们都发现这么多企业都在往 AI Coding 的领域投入资源足以显示出它的重要性
包括大模型的基础能力从技术层面上来看 AI 编程的能力确实有了显著的提升大模型的基础能力的发展推动了 AI 编程的巨大进步比如我们拿 Cloud 3.5 Sonic 出来后吧 AI 编程工具确实越来越强大了 Cursor 的最新版本 0.45 也支持了 DeepSeq R1 和 V3
说完前面是我们有融资国内国外互联网巨头的一些布局包括一些技术层面的能力再说一下微观我有在的公司从去年下半年 24 年下半年开始就在大力的推广 AI coding 的工具我自己适用下来的体验呢确实帮助开发者来说提升了编程效率
所以总的来说我认为 AI 编程工具它不仅是一个风口而且是一个正在改变编程生态的重要的趋势我觉得它也是肯定是真风口不是假炒作首先 AI 真的是好大一个风口反正我活的年头少没有见过更大的风口了在 AI
一些领域里面我觉得编程是一个经济价值也足够大相对落地也比较靠谱的这样的一个方向前面我们一直说跟自动驾驶去做对比
自动驾驶它有一个就是落地它有一个问题是它的货物的成本真的是很高所以它一旦产生一个车祸或者怎么样甚至说没有车祸那么严重哪怕它只是车在路边的一些路灯什么路沿在它有一些寡蹭这种经济损失都蛮大的如果真的有车祸就不是经济损失的问题了
所以它的落地就一直都很难但是编程这个事情你大不了你代码写错了嘛这个就还好对代码写错了还可以让 AI 再给我们写一个单元测试再去教练出来对这个而且它程序员的工资这么高它如果说能就是 10% 20%的像蔡蔡刚刚举的数据里面也已经就是
他现在 AI 辅助写的代码都是 25% 30%这样的哪怕你 10%的去取代程序员也能省下来好多钱你能省下来这么多钱能给这些雇佣程序员的公司省下这么多钱你就可以把这个东西定价到比这个价格稍微低一点的那么你的招入最后的机会最后的市场价值也是蛮大的
所以它是一个既有市场价值落地又没有那么高成本的方向现在的技术是可以支持它的我觉得这个真的是一定会而且因为它有这么大的市场价值最出名的那一部分人是一定会去那里卷的只要这些人去卷现在这个方向也已经非常有前景了技术上已经解决的差不多了
可能有一些边边角角的那种状况我觉得有最聪明的一拨人去卷这个东西的话是一定能做得出来我记得刚出 23 年的时候 GitHub 口号应该是 23 年当出来的时候就大家的观点是不一的觉得他能做的事太有限了根本是对我们这个职业不足为惧后来随着 AI 变成的能力一点点提升大家的观点开始微妙了起来
就开始说我去危险现在就很多身边的一些中学院朋友也开始说我得积极了解一下这个东西这确实是未来的趋势就也在想着怎么去用好它
但是对自己的未来前景就想着这 AI 编程确实发展太快了不只是 AI 编程我觉得是整个大模型的能力这几年提升的非常快是比人们预想的要快很多的最开始的时候什么 GPT 3.5 好像出来的时候就揣着 GPT 的第一个版本出来它其实只是能说人话而已
但是它有的时候还会一本脚就扶着到或者是但是那个时候对大家来说就是一个很大的冲击一个你知道它是一个机器人但是它能说这么看起来像人画这个就已经很大的冲击了后面当这个东西出来了之后就还是最聪明的一拨人就开始去卷那个东西把它的很多技术问题去解决了
后面 GPT-4 出来就比 3.5 还要好很多再包括刚开始出多模态的时候会有什么文生图的时候它生成的图片还挺奇怪的但是现在其实当时的一些奇怪的现象什么车水马龙的那种就都已经解决了文生视频其实也
发展的蛮快的我觉得整个 AI 相关的各种东西都发展的要比大家想的要快很多这里还有一个问题就是为什么 AI 编程会 AI 的发展现在 AI 编程应该找到自己的 PMF 市场上能获得盈利的
是不是因为我们的这个行业它的确定性好训练一点我觉得首先是训练数据还蛮多的程序还是很有生产力的一踏步上面就好这种
程序员本身这个数据足够干净相对比较干净程序员写的代码他需要做的一些心理什么的也比较少他本身就在一个比方说像 GitHub 这样的一个社区里面程序员就有这种社区文化前面说的就是他的市场价值也很大而且他本身可以跑测所以他可以去验证这个东西对不对你像说一个视频完了之后
你只有人能去验证这个视频好不好对我们这个程序它能不能跑能不能编译首先最基本的它能不能编译通过能不能运行这是一种可验证的确实对它生成的图片生成的视频很难有一个自动的机制去验证图片好不好视频好不好
所以这就带出来另外一个话题了那虽然 AI 写代码它是能写出来我们符合我们基本诉求的代码那这个代码写的好不好是否可验证这也是一个挺考验一是 AI 的功底二是使用 AI 的人的功底
就我之前看资料我们初级程序员和高级程序员对 AI 的接受度是不一样的以及使用的率是不一样的初级程序员会更愿意用 AI 接受率会很高直接 AI 上升代码直接运用了那资深的程序员他采用的 AI 并不多而且会有自己的一些调整
就比如是我要用 AI 写个代码初级程序员可能会考虑时间复杂度空间复杂度少一点那资深的程序员呢可能会更结合当下的业务场景去准一下 AI 写代码有没有去写出来就是性能很好的代码
我这也是我自己切身的一个例子我年前用课词给我实现了一个需求当时没有写的特别复杂我说直接就把我的诉求去告诉他了他用 A 站的模式直接就忠诚了我就听好完全符合我的诉求后来我自己在 RedMap 的时候发现这个时间复杂度在我们的一些极端场景有可能会把我这个接口因为我是一个 C 端的接口直接把我接口拖垮
我觉得这不行我发现我的 prompt 里确实也没有加上你要考虑时间复杂度以及什么样场景的时间复杂度当我把这句话加给他的时候他给我写了一个符合我诉求的代码所以我们刚才是聊到可验证那其实怎么写出好代码这个的验证机制我觉得现在是还差点意思
这个我也有过我前面训练过一个比较简单的文本分类的这样的一个模型当时是我在一个 MacBook 上面跑 MacBook 是有新一点的 MacBook 上面是有苹果自己做的芯片的它是说可以跟 GPU 去比当时我也是让 Cursor 给我写一个代码说你给我训练一个什么样的模型它的代码写出来我相当于是把数据底整个跑了一遍
看它这个有没有 bugA 的是没有 bug 的就说那你这个数据集给我跑 100 遍给我训练一遍用地气学习的术语你给我跑 100 个 epoc 这个时候就发现它特别慢我再去问 Cursor 我说你这个东西跑得慢我在 MacBook 上面你给我把它挪到 M1 的芯片上面去加速一下训练过程
他还是知道他是能做到的他就是他他告诉我说你这几行怎么改只要去 apply 或者 set 那些东西确实是比之前快几十倍了还是程序员用他的程序员有这个思维大概有一个预期我这个东西是应该跑多长时间的
我看到了这一步跑得特别慢我是可以让他改他也是能改过来的像蔡蔡说的你在前面的 problem 里面给他一个说明说我对这个时间复杂度有要求或者我对空间复杂度在什么场景下面有要求他也是能够给出来的我觉得这个就挺好的你没有告诉人家你不能预想人家自己会想到你是不是时间复杂度有要求
后来我就在我的客树入里加了一条因为客树是可以配一些规则我是加了一条你在写单码的时候要注意就是时间复杂度和空间复杂度对把这个作为一个通用的要求去加给他了
那这个确实也需要考量程序员就是你用他的人有很多事情是在定制化的场景你要分析你的工程上下文和业务上下文再去给科斯尔一个指令对这个确实另外我觉得刚刚提到的有些资深的程序员会用
用 AI 比较少或者说用 AI 之后他自己会改不一定完全是跟时间复杂度空间复杂度或者代码质量这种东西有关系可能是这些程序员他形成了一个自己的编程的风格
他看 AI 写的代码跟他的风格不一样的时候他就把它改过来有一些初级程序员或者说在学校里面的他没有形成自己的风格或者他是一个学习的心态怎么样的风格他都可以接受所以这样的可能他这个代码能跑起来他也就没有那么多的强迫症性的这种要求那
那我们俩的观点还挺一致的就是 AI 编程领域是一个真风口我也相信 25 年因为去年才是 AI 编程的第一年就已经出现了 Cursor Resolve Daven 的这些产品发展特别快所以我觉得 25 年肯定会出现更厉害的产品
所以我们都觉得它是一个真风口我觉得是肯定会出现更厉害的产品但是可能引起的关注度不会那么高了就像 GPT 出来 3.5 出来的时候大家非常关注其实 4 出来包括其实我现在都不太知道 OpenAI 出到 GPT 多少反正它后面的型号也比较奇怪什么 SoMini
对呢今天的 O3 就我已经不太知道甚至我不知道这些东西谁比谁好是怎么排去的或者是比方说就像 iPhone 出来我现在也不知道 iPhone 出到哪一代
我觉得它后面肯定是会越来越好但是大家可能不会那么关注了你的意思是说因为它第一年出来就会吸引大量的融资去往建设这个方向 25 年可能这方向不会像那种从零到一的那种关注的热度可能会有其他的方向涌入会出现其他的风口我觉得会的尤其是现在就是 deep seek 这一波我觉得今年是 ratherning 的一年
我觉得 25 年是 reasoningreasoning 会变成风口那我们稍微偏下题因为在跟我们讲讲这个 deep seek 这个 reasoning 它跟之前是有啥不同因为我这两天也看了一些 deep seek 的文章它是说它的 reasoning 是比之前那种训练方式要效率更高是吗我自己也还在了解但是其实首先就是它 infrastructure
上面做了一些改进跟大家常用的比方说 OpenAI 当然 OpenAI 必须怎么训练模型人们并不真的知道但是大家都在猜大家也猜的差不多其实像 Meta 的 Lama Family 包括欧洲的什么 Miso 之类的它是完全公开的它是开源的所以人们可以看到 Meta 是怎么训练 Lama 的
包括 Lama 系列 Lama 2, Lama 3, Lama 3.1 等等 DeepThink 它首先是在 infrastructure 上面做了一些改动结果是它会用更低的成本训练出跟这些模型差不多的表现力差不多的模型应该是跟 Lama 的最新的模型可以比的 DeepThink 和 V3
它是在 DeepSeq V3 的上面又训练又加了这个 Readening 的功能训练出来了 DeepSeq R1 然后它加 Readening 的这个过程就是 Readening 其实也是大模型领域 LM 领域长期存在的一个问题说白了就是你的模型会一本正经的胡说八道嘛尤其是稍微复杂一点的
比方说数学的应用题它是会有第一步怎么想第二步怎么想最后怎么怎么样的它不是一个单纯的看你去预测下一个 token 这样子的应用题比方说什么胡说八道就是什么一个洋葱十块钱不知道一个黄瓜五块钱小朋友同学去买了十个洋葱五个黄瓜多少钱你这个时候如果你仔细说看下一个 token 应该是什么
你可能就会说前面是什么洋葱多少钱黄瓜多少钱小苗买几个几个洋葱几个就是你只知道下面你要预测的是一个数字你这个数字其实可以是任何东西所以如果你不加锐正定功能的拉传绘 model 它能够感知到我后面要给的答案是一个数字它这个数字可以随便出来一个
不是算出来的是他按照概率说我这样往下说话下一个词我应该说什么加了 reasoning 之后所以 reasoning 这个领域也是一直科研方面非常活跃的领域有一些办法去加 reasoning 比较常见的两个办法一个叫思维链就是 train of thought 就是说你在 prompt 的时候你除了前面那些用户题你说小明买了什么东西之后需要花多少钱你再加一句请你给出你的运算过程
这个时候蜡烛两个女毛都知道 OK 我要一个运算过程那我就要第一步怎么算第二步怎么算这样他算出来的可能性算对的可能性就高了很多另一个办法是就是 reinforcement learning 就是强化学习他的强化学习是说我给你一堆算数学题下面讲怎么算最后答出结果来
比方说一个洋葱多少钱然后说什么小明买十个洋葱那十个洋葱多少钱一个黄瓜多少钱小明买了几个黄瓜所以他买黄瓜花了多少钱他买这些洋葱和这些黄瓜总共花的钱就是这两个数加起来所以总共是多少钱他的训练数据里面会有这样的东西他的 reinforcement learning 是
我还是要求你给出你的思考过程如果你的思考过程是我的思考过程跟我给你的思考过程一样的那么你这个学习机制会得到一些 reward 我训练你这个学习机制去最大化你的 reward 所以你这个东西就是相当于会学会这些推理的过程 reforcement learning 它一直有一个问题我这个数据集里面我给了你 100 到 1000 到 1 万道应用题
我再出来一个跟他们都不一样的应用题你会不会自己算出来如果跟这一千前面的这个一千到一万到的训练数据里面某一个题非常像他训练他算出来的可能性更大但是你比方说数学应用题这种东西出题的人他想怎么出怎么出他很容易出到以前都没有出过的跟这个前面都不一样的
他那种时候就是 reinforcement learning 还是也会 fail 掉的同时他需要非常多的这种就是带 train of thought 的这种数据 R1 他的训练就是他纯用 reinforcement learning 他纯就是说让你去生成让你去告诉我你是怎么想的他只看最后你给我的东西对不对他没有说我中间每一步都要按照我给你的东西来
前面说的那种常见的 reinforcement learning 它是中间每一步会有一个轮廓的这个就是说我只看一个终极的轮廓的这个看起来其实简单粗暴说白了就是你的模型会一本正经的胡说八道尤其是稍微复杂一点的它比较神奇的让大家非常觉得好厉害的这么一个点是
他的模型自己会我推理推着方向推错了他模型自己会知道 on wait 我好像前面错了我重新来他会把这个东西推到正确的这个方向上去这个是他论文里面出现的他叫这种 aha moment 我看一些中文的文章翻译说是顿悟的时刻这个模型会自己看得到自己做错了
对不起把自己改过来原来好 moment 是这个意思对他会改过来这个非常神奇这个是之前从来没有见到过的我看到一个观点说通过强化学习就替代了传统的那种标注的数据
因为我们传统可标注数据通常依赖人工标注成本比较高 DeepSeq 它是认为社会中的事物存在交集可通过相互的验证进行学习然后让模型的自主的推理来关联获取知识
那是不是 Deep Sea 这种模式出来对于标注的数据的一些需求会以及成本会降下来对这个就是我刚刚说的之前的那种 Re-Informability 之前的强化学习是每一道应用题我需要人工去给他一个解题思路然后我把这一堆交给一个就是
是说
你第一步碰到了我的第一步是一样的 OK 我给你一部分 reward 了如果我总共十步可能我第一步的 reward 是 0.1 第二步是 0.2 一直到最后你能拿到 1 的 reward 我不管你中间怎么推理反正你如果最后推到了跟我一样的我就给你 1 的 reward 了如果你中间推了半天没有推到这个我就给你 0 的 reward 了
但是反正我要求你用 Train of Thought 把你的推理过程你必须要推理你不能瞎拍场外学习和推理学习是一回事吗它是推理学习的意思是让大模型有推理的能力
强化学习是机器学习里面的一个分支或者说一套方法论强化学习是以向可以理解为以向强化学习是完成推理学习或者说让大模型有推理能力的一种方法 DeepSeek 可能是因为采用了 reinforcement 这种强化学习的技术这是它的一个创新点实现了模型的推理能力对 它的创新点是把之前的一些强化学习的办法改得更简单粗暴了
但是他只是说对他完全纯靠强化学习训练出来的这个东西虽然推理能力是还不错的但是他也发现了他不太说人话那用强化学习的这种方式会降低幻觉吗会保证你东西是从推理来的但是他可能还会有一些对会降低一些幻觉但是他可能还是会有一些幻觉这个不能解决所有的幻觉
对会推理错就有可能比如那种完全没训练过的一些场景他的失识故里没有他就不会推理了也对比方说你问他如果他的训练数据到什么 2024 年 2025 年你问他 2026 年要发生的什么事情他可能就会胡说八道 OK 了解
本期是马农姐妹 AI 编程系列的第一期第二期我们会聊到 AI 编程是真实放生产力还是家具牛马内卷 AI 编程真正能为我们个体带来的价值是什么以及对我们普通人来说 AI 编程有什么坑要绕开
第二期已经在路上了很快就会上线大家敬请期待另外如果大家有什么分享意见建议也欢迎大家随时来评论区给我们去交流我们也会看大家的一些评论 OK 那这一期就这样了