cover of episode WTR | o3发布,我玩上M3 Ultra啦!

WTR | o3发布,我玩上M3 Ultra啦!

2025/4/24
logo of podcast 一周科技回顾 | WTR

一周科技回顾 | WTR

AI Deep Dive AI Chapters Transcript
People
周周
Topics
白白/周周: 本周科技新闻主要围绕AI模型及相关应用展开。ChatGPT新增图片库功能,但功能有限;OpenAI计划淘汰GPT-4.5,推出GPT-4.1;发布了O3和O4-mini模型,支持多模态COT,并具备一定的地理位置猜测能力,但实际效果有待提高。在视频生成领域,阿里巴巴开源了通义万象2.1模型,Lvmin Zhang发布了FramePack,可以在低配置设备上生成视频,但长视频效果有待提升。Google发布了TPU v7,算力强劲。 总的来说,本周AI模型发展迅速,但仍存在一些挑战,例如模型的准确性和效率问题。 周周: 本周我体验了M3 Ultra Mac Studio,其在推理大模型方面性能强劲,但Mac平台的推理框架还不成熟,缺乏对Batch Inference的支持,导致GPU算力利用率低,性能未得到充分发挥。与H20服务器相比,性价比不高。

Deep Dive

Chapters

Shownotes Transcript

2025 年 4 月 20 日下午 22 点 51 分欢迎收听最新一些 WTR 一周科技回顾我是主持人白白我是周周我们会在这个节目里讨论最新最酷最前沿的科学新闻和我们的数码产品使用心得本周也没有太多比较大的新闻主要呢又是这些 AI 这些 AI 公司还有研究者们给我们整了一圈活还挺有意思的

那我们先来看一看 OpenAI 这周整了什么活首先是 TestGPT 加了一个图片库功能这个功能应该是为了应对这段时间 TestGPT 生成那个机不力分割图像哇 火的要死然后很多人拿 TestGPT 不聊天光赶上深图所以说给 TestGPT 加了这么个图片库功能

还挺怪的因为 Conjure 的 OpenAI 还有另外一个服务叫做 SoraSora 的话是有 Gel8.9 的图片和管理功能而 ChinaJPG 新加的这个功能就比较基础你没有办法看用的 Prompt 是什么你也没有办法从这个图片定位到那个对话所以还是比较受限的 Sora 的问题在于它的知名度太小了没人知道这个玩意儿

那你带了 GBD 带上一个入口可能这是 OpenAI 想的这个做法那也确实也确实就骚扰的体验确实要好不少就骚扰甚至你可以一次性生成两张图或者四个视频对你可以让它排队然后慢慢在后台生成虽然说 Plus 会员这个排队最多最多只有两个任务可以同时排但也还行吧也还行

然后 Sora 你还可以看到别人都在生成什么图它有一个所谓的类似于一个社区广场那么个东西然后可以看别人生成什么图还有很多人利用 Sora 的这个文本生成能力搞上了在发帖就写字就说什么 Sora 社区怎么怎么着 Sora 的管理员怎么怎么着是 Sora 本身它不能发任何的文字除了你的 prompt 然后有人就在用 prompt 让

GPD4O 生成一些文字来作为发帖的一种方法今天我看到一个特别离谱的一个发帖有人发帖说大家不要老是生成脚的照片了好不好对这个就是那个叫什么词来着就是它确实没有违反但确实会让人联想到就一种特殊的兴起吧嗯

然后 OpenAI 本周还说打算淘汰 GBD4.5 全而代之的是 GBD4.1 这 4.5 和 4.1 你说谁更厉害呢 OpenAI 说 4.1 更厉害这就没有什么道理因为 4.1 大于 4.5 这怎么有道理呢 OpenAI 应该出一个应该叫 4.11 有人说这个 4.5 是

OpenAI 内部的研发版本那它被淘汰了确实也合理因为它成本也非常高但是它这个命名方式就让人真的看不懂是然后这个 4.1 目前还只在 API 里提供你在 ChatGBT 客户端里面是仍然用不了的但你可以用 4.5 这也很奇怪为什么不给这个 APP 举种呢对啊不给 APP 用更便宜的 4.1

然后 OpenAI 本周还发布了 O3 和 O3 MiniO3 Mini 还有一个 O3 Mini High 的版本这次这两个模型它的特色是支持多模态的 COT 也就是它在这个 COT 就是四维电的这个部分呢它可以去比如说裁切图片然后可以去看这个图片的细节然后从而可以更怎么说可以更详细的去了解这个图片的细节

它可以实现什么样的能力呢就我给它一张图我让它去告诉我这张图是拍摄在什么地方它就可以开始比如说去裁剪这个图片去放大这个图片然后看这个里面的字然后去往下搜索就完全是一个 agent 的状态最后告诉我说这个地方是哪儿在哪儿就我试了试它猜的这个效果还行就说不上特别的准

但是也能猜个八九不离十起码城市基本上是能猜对的当然了你给他的图你得要一些能够让他识别的特征比如说有一些店铺的名字道路的路牌这些你要是光给他一个风景图他是没法去找的

比如说我给他了一个我当时去香港 Apple Store 拍的一个照片然后让他去找他找了半天就说这个地方是在香港但是店呢本身是找错了我给的这个店是铜锣湾店他找到尖沙嘴了所以还行还行

这也是告诉我们在网上发图片的时候这种带文字的部分还是很容易去暴露你的一些信息的如果你比较在意这个的话我看到网上有更离谱的推测图片位置的方法有人用什么阳光的估测拍摄者拍摄的时间然后用这个时间去估测太阳的位置然后再看附近的山脉河流水流的流向之类的

如果大家感兴趣的话有一个人叫做 Rainbow Bolt 这人是一个专业的 geoguessor 就你给他一张图就甚至不用说这个图里面有什么文字啊这些就哪怕你给他一个船的分景照

他也能给你找出来这个地方在哪就和赵赵刚才说的那样他就分析说这个植被的特征说这个太阳的角度然后甚至有的时候他一看说这不是在那个地方吗他直接就能看出来牛逼拆了 GVT 什么时候能有这样的能力那就太恐怖了这里没有这个位置的因素了然后我还想拆了 GVT 试着去画这个定位框

就是一个照片嘛我给他然后我说你画这个照片上你画一个框把这人给框起来把我要的这个东西给框起来有这么一个任务这个任务呢其实不简单因为 GVT 没有所谓的光解能力也就是说它

说这个图片啊这个框从这个多少到多少他是说不准的那这个时候他就需要利用他的这个新的这种多摩泰斯的练能力然后去推理然后去放大这个图片然后去给这个图片上比如加点虚线下一个坐标轴然后帮助他去更好的定位

它画这位定位框的效果就还行还行说不上特别的好但就还行这个表现跟我以前尝试用 GPT-4 Turbo 做了一个 agent 然后去画这个定位框效果是差不多的但可说它可是 O3 它可是 O4 Mini 这样的效果只能说没有达到我的预期我以为会非常的准确

然后还试着让他去做一个特别难的任务就我在网上看到有人居然收集了苹果有史以来出国的所有的 Apple Watch 运动表带总共有 143 个 143 个表带一个三百块钱那就可以买两张新华可以买两张 5090D 这么多钱买这表带太离谱然后我把这张图片我就

丢给这个 O3 和 O4 mini 让他们去数说这个图片上到底有多少个表带然后我就看着 O3 和 O4 mini 给人家在移动操作啊各种放大各种代码解释器啊就用这个 OpenCV 去查找边缘然后去这个二质化这个图像啊移动操作搞正了最后这个答案对最后这个答案错的离谱

还不如我直接把这个图片丢给 Cloud 然后 Cloud 简单数楼数一共 143 个一共 144 个那结果只差 1 像这个 O3 和 O4 Mini 就差了离谱像这个 O3 就说有 160 个然后这个 O4 Mini 也说是有 120 个都差了离谱

所以移动操作猛如虎一看结果 250 所以这个 O3 就没有我想象中那么厉害因为当时 OpenAI 在发布它的时候那可牛逼了说这个 O3 它远远超过了其他所有的这些大模型然后它能够解决非常非常复杂的数学难题等等吧

结果到现在呢也就这样也就这样它的这个表现就我的主播感受而言可能跟 Google 的 Gemini 2.5 Pro 也就差不多的水平并没有说特别的惊艳 OpenAI 还说 O3 还有一个 O3 Pro 然后现在还没有但是之后会提供给 TestGVT Pro 用户相当于是接替了 O1 Pro 那 O3 Pro 理论上来说会用更多的计算料

但是我想应该也不至于说像 OpenAI 刷榜的时候用什么数千个 GPU 小时一次推理推理好几天并且回答一道题推理 64 遍然后取最好的那一遍肯定不会有这样的机制所以它的智能水平远远没有 OpenAI 推的那么好

然后 OpenAI 这周还爆出来说他想开发一个社交平台这怎么回事就是 Sam Altman 之前说过如果扎克伯格要把 AI 集成到他们的社交平台里那我为什么不能做一个社交平台呢所以 OpenAI 可能就想要开发一个社交平台其实他现在的 Sora 有一定性质上是很接近这个定义的

也是它要是给 Sora 加一个正经的发帖功能然后大家可以去回复亚伦修拉道的也挺社交的但是我可能想象这种平台它的什么用户活跃度可以跟什么 Twitter 或者 Facebook 什么 TikTok 这种相比是感觉我想到的是一个 AGI 人工智能生成模型人工智能生成内容的一个平台

首先这个东西是很新你根本不知道该怎么去管理它 Sora 现在也是因为有了限制所以它才会显得里面好像比较有意思但真的是一个很大的平台里面数不清的人工智能生成内容那我们到底上这个平台是为了什么呢是啊 为了什么呢

然后阿里本周开源了通一万象 2.1 这是一个 14B 的试边生成模型我试了一下效果还挺好的这个模型它支持你设置首帧和尾帧然后这个模型去把中间的这个变化给你插植出来比如说我这两天在玩这回的在线我就把我游戏里的两张截图

放进去然后这个同一半向的去插值哇我觉得插值的效果还挺好的就这两张图可能人物的这些神态动作有一些变化然后人的数量有所增减然后它能实现的说有人走进来然后这些人的动作也都比较的我觉得是比较的灵活比较的自然效果还挺好的并且跟 Google 的 Viu2 相比呢

这个通一万象它的这个审查要少很多 VL2 动不动就拒绝我的请求哇特别烦而且这个拒绝请求的时候也算是我的使用的额度哇特别的烦阿里这个账号很多然后它的效果比骚扰要好

我觉得比 Sora 要好 Sora 就挺烂的非常的烂它甚至还不如我接下来要讲的这个 Frame Pack 这个开源的工作另一个开源的工作这个 Frame Pack 是一个什么东西呢就是这个工作呢它可以让你在你的只有 6GB 显存的 3060 Laptop 上去生成视频简直是给招招清静做的哈哈哈哈

我现在只有一个 306 年 laptop 它的这个特色就是 O1 的计算复杂度

这个也就是说无论它生成多少长的视频生成每一帧它需要计算量是很定的这就和一般的自回归模型不一样一般的这个自回归模型当你的这个自回归序列长度增加之后你的 contact 增加之后那你去查询这个 KVCache 的这个需要计算量也会随之增大它的计算 file 应该是 onlogn 吧还是 onfang 来着

然后它这个 OE 的计算法都是怎么做到的呢因为它限制了这个 context 的长度到一个固定值比如说大概 6GB 这么大的一个 KV cache 然后它就对这些过往的每一帧去压缩就按一定的测试去进行压缩比如说你可以说你第一帧比较重要

然后中间的这些针呢那你就压缩给它压缩到原本的什么几分之一几十分之一然后呢到尾针可能又比较重要然后让它的这个压缩的程度又更少一些用这种方式随着你是生成后面的针把前面的针进行压缩这压缩的策略呢有好几种就是刚才说的呢是一种

还有一种呢你可以说手针比较不重要尾针比较重要或者说尾针比较不重要手针比较重要等等吧你通过一定的策略去压缩这些 token 把他们压缩到一个合理的数量数量范围内就是一个固定的 context 里面然后呢对你就收获了 OE 的这段反而度就无论如何你的 context 长度不能加你的这次参量也就不会变

然后这里面有一些细节问题比如说你这个压缩到一定程度的时候万一你的这个 token 就是你的这个目标的分辨率已经小于一个 diffusion latent 的像素了这怎么办这会有一些额外的逻辑可以去处理比如你可以直接扔掉或者说你把它这个像素就要仍然加进去那这就会导致总体的 contact 率会增加

等等吧用这种方式去设置视频然后我今天试了试哇 效果好不错很好大概在我的 4090 上大概是生成 1024 以内的分辨率的这么一个视频我那应该是 744p 吧然后大概是 2 秒一帧 3090 laptop 的话会慢 4 到 8 倍但是也可以跑

这个效果很不错就给了一些我试了一些例子比如说一些动漫的图片然后一些我实拍的图片实拍的图片包括我向上间去上海然后拍了一个雕像让这雕像走起来

还有一个是我当时我之前在香港的时候拍的一个在机械站里的一个乐队然后让这个乐队动起来然后去弹吉他这些效果真的挺好的就我拿骚扰对比了一下就骚扰在生存的时候它就会有奇怪的这种切镜头然后它经常这个它就只剩下 8 秒然后这 8 秒中间各种切镜头有什么乱七八糟的元素乱入包括甚至有

或者一个什么人走过去然后他的这个身形直接顿扭曲然后直接跑过去就不符合物理规则而这个 frame pack 的方法呢就好很多这个 frame pack 它用的基础的模型实际上就是腾讯的混元 video 视频认识模型 13B 的一个大小

等于说 SORA 现在实在是不够看这个车程的视频体量太差劲了别说跟 V2 这样骚大笔跟这些开阅的这些卧行币也逃不了任何的便宜不过 SORA 可能有一点优势的地方就在一个长视频的视频能力

因为刚才我讲到的这个它 OE 自然复杂度的实现方式呢当你的这个视频序列长了之后那么你的这些 context 里面的这些帧就会压缩率就会很高它就会丢失大量的信息导致长视频生成的表现就不那么的好其实看着也还可以就不那么的好比如重复可能会多一些或者说你的这个人物的动作可能显得非常的缓慢会有这些问题

如果是生成什么 5 秒 10 秒的短视频效果还是很不错的就是这个 framepack 的作者也是挺牛逼的这个作者他之前干了一些什么活呢比如说他还做了 control netcontrol net 大名鼎鼎是吧呃这这挺天才的这些人

相比之下我自残心所以它这个原理呢也让它可以在训练的时候开比较大的 Batch Size 因为你的视频你可以设置一个比较短的 Context 你的 Batch Size 也可以开的比较大训练的时候也会比较的高效然后下一个事是 Google 推出了 TPU V7 这个是它在 4 月 9 号发了一篇 Blog 我看了一下发现 Google 的 TPU V7 还是挺牛逼的

它的代号叫做 Ironwood 它的 FP8 算力有 4600TFLOPS 或者大概是 4.5PFLOP 这是什么概念呢就是跟 NVIDIA 的这些 GPU 相比它跟最先进的 NVIDIA B200 单芯片的硬盘 8 算力是差不多的或者说是一样的差不多是 4.5PFLOP 的样子

然后还有这个 GPUV7 还有 192GB 的 HBM 显存这个显存的带宽也超级高有 7.2T 了超级高然后 Google 说最多可以组 9216 个节点的集群总算力能高达 42.5EVLOPS 这个算力相当于是世界上最强的超算的 24 倍哇 非常的夸张

就它的这个技术的先进程度已经跟 NVIDIA 最近最先进的这个 B200 芯片也差不多了我觉得这也是 Google 这段时间它的这些 AI 大模型不论是生视频还是生图还是这个 JMAN 2.5 Pro 最强的 ARM 它的非常牛逼这是很重要的原因因为 Google 就可以

一方面他就不需要给 Avidia 交那么多的钱他可以节省成本 Avidia 他反正都是都是找对他一定买芯片嘛就不需要找 Avidia 买了 Avidia 从中赚取高额的利润另一方面 Google 有自己的这个 TPU 然后可以是做很大的集群你节省成本之后你可以做更大的集群或者说节省更多的成本

他就算力 Google 就完全不缺算力了就是其他这么多公司都得排队买 MV 甲的 B200Google 就不缺算力了得说 Google 当年在 16 年的时候就开始搞这个 TPU 搞到现在还是多有成效还听而远见的 Google 说你也可以你也可以在之后在谷歌云就 Google Cloud PlatformDCP 上面去租这个新的 DPU V7 的集群

除了这个 9216 个节点的超大集群也有 256 个节点的相对小的中型集群然后谷歌也可能因为这个原因它的 IPI 价格也比较的便宜它的专门的 2.5 flash 甚至跟国内的很多模型相比都比较竞争力然后下一个事是 Switch 2 现在有更多的消息就是它似乎啊货源比较的充足

就现在的淘宝上你可以很轻松的花 4000 块钱就能买到港版或者 4200 块钱左右能买到马车限定马车通婚版就这个价格比我原本想象的还是要低不少的我以为 CH2 初期这个户可能价格会被炒得非常的高像当年 Steam Deck 刚发布的时候这一台 Steam Deck 炒了 2 万块钱

那种夸张的程度那我本来以为 3HR 只会比 Steam 店还更加离谱结果好像还可以你 4000 多 4000 出头就可以预订然后很多甚至都是你可以在发售的附近的时候就可以拿到也不需要等很久这也真的很好然后很多第三网平台甚至是 711 这种地方你都可以去预订 3HR 老人那边也可以去预订 711 怎么预订呢

你去店里面说 Print 是可以的老板我要看 Switch 2 然后 Switch 2 美版的预定时间现在是设置到了 4 月 24 号并且美版的 Switch 2 价格也没有上涨仍然维持在 449 美元所以这个情况比我预期的要好多了老任这个货源似乎相当的充足可喜可贺可喜可贺

那么以上就是本周的科技新闻接下来是久违的科技心得环节这周我有一个科技心得那就是这周我玩上 M3 Ultra 就是苹果的 M3 Ultra 的 Mac Studio512GB 的内存哇这么小的体积这么强大的性能 M3 Ultra 我就实际摸了摸得说还是相当的精致

它是全铝合金 CNC 的外壳看了就很锐利甚至拍照拍出来的话简直像是用什么 AR 效果去结交到现实中的一样特别的干净以至于有一种不真实的感觉 M3 Ultra 干什么用呢这是我们实验室买的然后实验室老师想用它去推理大模型

主要是用它的推进大模型所以我也对这边感兴趣所以我就帮忙去配置了一下然后测了测 M3 Ultra 推进大模型的速度跑千万 7B 这个生成的速度大概有 120 多克每秒的样子这个水平跟单卡 4090 是差不多的当然是单线程单线程的单卡 4090 是差不多的

然后千万 VL72B 的模型有 19tk 每秒这个速度也是跟 4090 差不多的千万 QWQ32B 能跑到 30tk 每秒这 QWQ 是同一千万的推理模型其实性能还是很不错的只不过热度没有相对 DeepSick 而已那么高

最后也是买这台机器最主要的目的推理 DeepSync RE671B 的满血版能够跑到 20tok/s 这个速度就已经比 DeepSync 的官网要快 DeepSync 官网只有 10gtk 的量数所以就还可以啊速度还挺快的只不过发现 Mac 平台上的这些推理框架都还不太成熟像我们在 N 卡上我们用的这些推理框架

诸如 VRM 然后 LM Deploy 或者 SJLAN 都没有对 Mac 平台比较良好的支持你基本上能用的只有两种框架一种是 LamaCVP 现在有 Metal 的 GPU 支持一种是 MLX 这个是苹果出的一个推理框架这两种框架呢 LamaCVP 的性能要略差一些然后 MLX 的性能会略好一些

像同样的 DeepSync RE671B 它的如果你有 LaraCBP 的话那推移速度大概是 10TK 每秒有 MLX 的话有 20TK 每秒当然这个是比较极端的案例其他的像千万 QWQ332B 的这个差距就要小一些所以我现在用的就是 MLX 但是这个 MLX 呢也有问题

包括 LamaCVP 也一样就是他们到现在啊居然都还没有支持这个调 Batchify 相当于你的这个不支持这个 Batch Inference 你不支持呢就意味着你的 GPU 算力不能得到充分的利用你的吞吐量就很低啊你单线程的吞吐量就是你整机的吞吐量啊这个很低啊

然后我看现在也有一些项目给 MLX 加上了这个 Batch Inference 的支持但是现在还没有并到 MLX 的那个主仓库里面甚至那个 Fork 我看现在也已经不能用了因为经过了那个 Fork 已经 9 个月没有更新了就不能用了所以这个软件的支持情况还是比 NVIDIA 要差很多的

这个 2G 推理框架还很不成熟导致这个 Mac Studio 这个 MSI Ultra 不能被充分利用下来像现在它跑 R1671B 的时候跑生成的时候功耗只有 50 瓦到 60 瓦这实在是太低了像我们在 preview 的时候它的 GPU 核心是可以跑满的跑满的时候功耗能有 170 瓦到 180 瓦

你可以看到这个功耗的差距很大这基本上也就是说明现在的这些现在的 MRX 的推进框架还没有办法把 M3 Ultra 的完整的潜能发挥出来这个得说还是比较遗憾的

包括它也没有用更没有用上一些现在 NVIDIA 这些卡上的这几个流行的推理框架支持的一些新特性一些比较先进的特性像配置的 Tension 这些可以进一步去提高推理的效率

等于说现在你买一个 M3 Ultra 的 Max Studio 你专门用来跑大模型还是挺不划算的你有这个钱你不如买点这什么 4090 或者 5090 那你的虽然跑不了像 R1671B 这样的超大模型但是你的存储量要高得多你跑一个什么 72B 的这种模型你的存储量高得多实际上是可用很多的

所以还是挺遗憾的甚至我甚至呃我实验室的老师还有一个妄想说现在你做一个 H20 的服务器那一张 H20H20 的 8 卡服务器你可能要花 150 万甚至 200 万那么 150 万呢你可以买 20 台 Mac Studio 那么你用 20 个 Mac Studio 去打 8 卡的 H20

那还是巴卡的 S20 存储能量高得多生产速度要快得多所以还是差挺远的行那么以上就是本周 WTR 的全部内容了我是飙飙我是周周我们下周再见拜拜拜拜