We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 新DeepSeek R1发布带来AI Coding的重大变化

新DeepSeek R1发布带来AI Coding的重大变化

2025/5/29
logo of podcast AI产品黄叔

AI产品黄叔

AI Deep Dive AI Chapters Transcript
People
匿名
Topics
匿名:我认为DeepSeek R1的小版本更新具有颠覆性,猜测它可能是DeepSeek R2的一个早期版本。在代码生成方面,我过去主要使用Windows serve+Cloud系列模型,现在更多使用Cursor+Cloud 4。我发现Cloud 3.5到3.7的代码生成能力提升有限,且生成的简单需求代码也经常出错。但Cloud 4的代码生成能力有了显著提升。DeepSeek R1在生成小型网页工具和浏览器插件等简单代码时,能够一次性生成完全正确的代码,这表明它在简单代码生成方面达到了Cloud 3.7以上的水平。不过,由于上下文窗口和解决复杂问题的能力限制,R1并不适合处理复杂的编程任务。在前端审美方面,R1在生成卡片和海报等内容时,水平高于3.5,介于3.7和4之间。虽然Cloud 3.7和4的审美水平相近,但Cloud 4的代码输出质量更高,稳定性和质量更优。总体而言,我认为DeepSeek R1的前端审美能力约等于Cloud 3.7或4,代码生成和前端审美的结合将带来重要变化。

Deep Dive

Chapters
DeepSeek R1的小更新带来了代码生成能力的显著提升,作者将其与3.5、3.7和4版本进行对比,发现R1在生成简单代码方面已经超越了3.7版本,能够一遍生成完全正确的代码,但在处理复杂问题时能力相对较弱。
  • DeepSeek R1在代码生成能力上超越了3.7版本,能够生成完全正确的简单代码。
  • R1在处理复杂问题时能力相对较弱。
  • R1在代码生成前进行大量的思考,可能提升了推理质量。

Shownotes Transcript

哈喽啊有一件事情确实值得跟大家分享一下就是昨天晚上 6:13DeepSick R1 发布了一个小版本的更新但这个小版本的更新呢我个人觉得它的颠覆还是蛮强的而且它之所以说小更新我预测呀我盲猜它应该是 DeepSick R2 的一个 checkpoint 就是它可能是一个

检验的节点然后只不过觉得好像还可以就把它放出来了那我们测下来呢从昨晚 6:13 大概一直干到了我可能是 7 8 点才开始测的测到 11 点左右

然后今天跟大家说三个模块吧第一个就是它的代码生成能力第二个是它的前端审美第三个是为什么我说它真的是非常非常厉害然后我都不惜在昨天晚上的标题发出来都是用比较正经体的这种逻辑它确实值得啊

因为首先它第一点它在代码生成上面我自己不写了 AI 变成蓝皮书过去我是非常大量的在使用 Windows serve+Cloud 3.5 后面是 3.7 然后再到现在是 4 因为在 Windows serve 上面没法用就是竞争关系所以我现在更多是用 Cursor+Cloud 4

这里面我会意识到很重要的点是其实 3.5 到 3.7 它的代码生成能力估计也就提高个百分之十几二十这个是我的感受直观感受他们还是在一个非常一致的水平的 3.5 跟 3.7 他们都有个问题是说即使再简单的需求我让模型去生成往往一遍

出来的代码是有错的但到 4 之后就基本没有问题了所以这个是非常大的一个字的提高但是昨天我用 DeepSeek IE 去跑了比如说小的网页工具小的浏览器插件它真的是能一遍完全正确当然它在真的代码生成之前它其实思考了可能两三千字就它思考了非常非常的久所以可能带来后面的推理的质量变高了

反正代码生成上面我觉得他应该在都是说在简单的代码上面他应该是有 3.7 以上的水平当然如果是一些复杂的情况那可能他的水准要低很多因为他的上前方窗口包括

对于复杂问题的解决能力还有就是没有多么太所以这几个因素包括他推移的比较久这几个因素其实使得他并不适合真的去处理复杂的复杂的问题然后第二个呢是他的前端审美上面

我们可以看到过去很多人都用来做用模型来做这种可视化他的一个逻辑是说用 HTML 代码来渲染出一个网页使得网页里面内容可能是你想要的海报

这是卡片或者说是 iOS 的这种设计稿那我其实最近也发了一个嘛用 Cloud4 来生成一整套 iOS 的设计稿现在质量已经非常高了然后呢我们用 RE 来测像卡片啊海报啊这些发现它的水平啊肯定比 3.5 要高在 3.7 和 4 之间

因为 3.7 跟 4 其实它们的审美是差不多的只不过是刚才我们讲它代码输出一次能输出可能 3000 行以上的高质量的代码它会使得说你的稳定性和质量要更高一点所以在这个情况下我们详细的对比一下各种情况 R1 基本都完成了还挺不错的

就是我们可以设想一下假如说 3.5 的审美是六七十分那 3.7 到 4 审美水平也到了 80 到 85 分那 R1 呢整体看下来啊也在至少是 78 分以上 75 分以上就这是一种什么感觉呢就是假如说 80 分啊是我们普通人已经分辨不出他的审美就他们的审美已经超过我们普通人的理解范围了啊

R1 和 3.74 都是在都是超出这个领域了就是如果我让两张图摆在我面前我第一眼我其实看不出来他们谁好谁不好当然 4 和 3.7 呢他在很多的细节上面包括各种各种奇形怪状的表达上面他是做的非常非常的好的所以你其实仔细的去看你还是能够意识到 3.7 和 44 要比

R1 要好一些的好一些但不多所以我认为前端审美能力上面 R1 它确实约等于 3.7 或者 4 因为刚刚我们说 3.74 基本是一个 level 所以你会发现说代码生成和前端审美这两者结合在一起它带来了什么样一个非常重要的变化我们想过去我们想去开发软件得用 vServe 或 Cursor 对吧最主要的大家现在主流的工具

这种 talk 的软件它一个月会收你 15-20 美金这个美金实际上就转化为了你使用 Cloud 的快速调用次数对吧你可以认为说理论上它去批量去跟 Cloud 买 API 能够打折然后我们就正常的跟他去买他就正中间的差价当然他有更多的服务来支撑他差价 OK

假如说 R1 能够到了 3.5 或 3.7 的水平它会发生什么样重大的影响呢首先价格大幅下降可能原来 20 美金的现在成本是两美金这个事情有意思吧然后第二个是不用打开魔法了对不对我们不用翻墙了我过去说的六七场培训其实有很重要的问题是说你要让别人

使用类似的软件去打开魔法哎现在不用了那第三个呢你看过去像我们我也用去吗这是自己的 ai 的 id 他其实推广他也挺费劲的就是如果你想你想效果好你必须要用海外版海外版在国内还不能用

如果您用国内版的 TreeCN 那就只有像 DevSec V3 豆包 1.5pro 这些模型这些模型的代码上能力又不行所以你其实很尴尬但是有了 RE 之后这个事情迎刃而解对吧你直接用 TreeCN 就行了然后它在用户体验和交互上面设计上面又更加符合国内的偏好更加简单易用

所以这里面就带来了一个巨大的市场变量这个变量的出现其实就让咱们国人玩 AI 编程的门槛大幅的降低 ok 如果这个因素是以这个市场爆发的重要因素那就大概就意味着国内的 AI 编程领域会迎来一个重大突破对吧现在是新 R1 如果到了再下一步真的 R2 出来

真的拥有了 Cloud4 级别的模型编程的能力那会带来什么样重大的变化呢所以在这样可能的重大变化情况下面我们个人应该做什么来迎接这样的变化对吧也是不是一个很有意思的命题好那我们今天就说到这大家可以去想一想拜拜