WTR | Llama 4 排行榜作弊？Office 又要改图标？

2025/4/13

一周科技回顾 | WTR

AI Deep Dive Transcript

People

招

招招

白

白彪

Topics

招招: 我平时使用ChatGPT时会关闭记忆功能，因为它会影响当前对话的结果。GPT-4将于4月30日停止支持，但仍有很多用户喜欢使用它，因为它在文学创作方面比GPT-4.5更具灵性。大型语言模型的幻觉问题可能需要通过增加模型参数量来解决。Llama 4发布后，在排行榜上排名靠前，但存在作弊嫌疑，实际性能不如排名显示的那么好。微软考虑更改Office图标，感觉没有必要，新图标设计并不合理，丢失了原有图标的特征和逻辑性。微软计划修改Win11开始菜单，改进“最近使用”项目的设计，将Win11开始菜单的“最近使用”项目改成类似文件夹的样式。白彪: ChatGPT更新的记忆功能，可以记住我的身份信息，方便我提问，但也会干扰无关问题的回答。ChatGPT的记忆功能可以结合projects功能使用，避免全局记忆干扰。ChatGPT的记忆功能会随意更新，需要不停地删除，所以关闭了它。ChatGPT的记忆功能会修改之前的记忆，而不是添加新的记忆，可能导致前后矛盾。ChatGPT的记忆功能目前对我来说没有找到什么实际用途，如果用于模拟电子伴侣，可能比较有用。ChatGPT的新记忆功能，其实是一个很基础的功能，营销过度了。我个人认为旧版Office图标设计很好，新的Office图标设计，将字母标志移至左下角，降低了辨识度。微软改进Win11开始菜单“最近使用”项目的设计，类似于iOS的应用资源库。

Deep Dive

Shownotes Transcript

2025 年 4 月 13 日下午 22 点 22 分欢迎收听最新一期的 WTR 一周科技回顾我是主持人招招我是白彪我们会在这个节目里面讨论最新最酷最前沿的科技新闻和我们的数码产品使用心得那本周我们又改到了周日来录 WTR 是为什么呢为什么呢

总不会是有人周六早上起不来吧肯定不会而有人起得来所以就弄到周日了对然后我这边的话也改成了下令时所以和国内就整整差 12 个小时这样就没有之前那么赶了

是这样的好本周的科技新闻说实话我们没有发现很多因为本周主要是特朗普在大搞特搞一会加关税一会又豁免对特朗普表演在这个时候发布新产品感觉就很不很不稳你知道吧就老任他在 4 月 2 号特朗普加关税的当天发布了这个 switch2 然后

然后老任就显得很被动因为所有讲特朗普关税的新闻里面都会说那 Switch2 怎么办 Switch2 怎么办然后问任天堂说 Switch2 怎么办任天堂说我也不知道我们的定价的时候没有考虑到这个关税啊

另一种程度上也给 Switch2 加了一波热度是的 Switch2 现在看来真的是很不确定它现在还推迟了在美国的发售日期预定日期原计划是在 4 月 9 号开始预定现在的话是推迟了并且没有说具体推迟到什么时候不过老任倒是说 6 月 5 号的发售时间仍然不变

所以我不知道老任可能也在官网吧据说老任已经在美国囤了一些 Switch2 了就在发售之前已经囤了一些了就不知道他怎么办因为他已经把价格公布了他要么说呢如果这个官税啊真的能加上去加到 Switch2 头上那老任有两个选择要么呢你就提升价格对吧比如说你把价格提到什么 700 刀现在卖 450 你给提到 700 刀 800 刀

这样会有个问题就是你不见得卖得出去家长给孩子们买游戏机一看要 800 刀可能就不买了要么第一批货就还是按 450 刀的原价来卖后面再提价这会遇到和第一个方案同样的问题只不过这个问题出现的时间会来得更晚一些实际上这也是很多美国公司会遇到的问题

然后我还看到一加在本周还在把它一加沃尔斯三的在美国的价格直接提了 52%这一加的手表也是挺离谱的就它为什么要立刻就提呢可能是因为它没有库存这个比方两个月之前发布的为什么会没有库存呢因为

他在给媒体送册的手表之后媒体们就发现它这个表上有一个错别字他把 Made in ChinaMADE 形成了 MEDA 变成了 Meta in China 而不是 Made in China 而且这个字还是刻在手表上的所以说你也没法改你不可能是贴个贴纸把这个 Meta 改成 Made 然后这些表全都得反攻

全都得返工然后导致一家就没有库存然后现在正式开卖了一家直接把售价提了 52%当然一家没有说售价提升就是关税导致的但还能是什么原因呢总不能让手表返工的成本让消费者承担任天堂应该立刻马上派几架飞机多运点 switch2 过来现在多运一点是

苹果又传闻说从印度空运了 6 吨 iPhone 到美国当科技产品以吨为单位去说的时候你就知道这个问题好像是有点问题是啊总之太离谱了然后就在昨天吧特朗普又翻了个大饼

还有前天就说还是昨天我已经记不清了特朗普大饼这周翻太多了说科技类的商品进入美国将不再征收额外的关税对于其他的国家

10%就不得人收了对于中国 145%的关税就不得人收不是 145%中国好像 20%还是得交但额外的 125%好像就不用交了总之这事就搞得挺乱的然后这两天美国的关税电脑好像还故障了导致没法登记关税然后所有的商品就 10 天之后补缴这搞得乱七八糟的

是一团乱麻那么在这种动荡的时期内会有哪些科技新闻呢首先是 ChinaGPT 发布了更新了记忆功能这是引用全部的历史对话你觉得这个功能怎么样呢你问我怎么觉得那我只能说我平时用 ChinaGPT 我都是把它记忆功能关掉用的我不希望我历史对话影响到它现在的行为

这下怎么你把它关掉了呢我最近倒是把记忆功能给打开了他现在能记住我是在美国的留学生然后我有 F1 签证巴拉巴拉的这些信息

这样我在问他某些问题的时候关于某些政策问题的时候我就不需要再打一遍了我觉得这点不错不然的话他会把说各种情况给我列出来但是我的担心就是我在问一些无关的问题的时候他也会参一些这些他记住的东西实际上他确实会参对像你这样的情况也许你可以用 ChadGBT 的那个 projects 功能

就是你把这些什么政策方面的内容都放到 projects 文件夹里面然后这 projects 你可以设置一个 custom instruction 然后把这个信息提供给他就行了就不用去像那样不用去动全局的记忆是个不错的方案我的话现在是在时时刻刻维护 memory

就是他不小心发现你好像更喜欢用比如说你好像更喜欢用 view 那么用户喜欢用 view 我只是问你一个 view 相关的问题我没有说我偏好哪个我只是刚开始用对就他会乱七八糟的他随意的去更新他这个 memory 然后我不停地在删这就非常的烦所以最后我把它关掉这是导致我把它关掉的最主要的原因之一

是的而且我觉得 OpenAI 还做了一个化蛇添足的功能就是它这个记忆它不是一条一条加的它会再把之前的记忆拿出来对比比如说本来有一条记忆是用户喜欢用 Vim 然后我后来跟他说我不喜欢用 Nano 他就开始把记忆改掉了他说用户喜欢用 Vim 不喜欢用 Nano 而不是再添加一条说用户不喜欢用 Nano 他会这么改

就有时候它甚至会出现前后矛盾的情况比如说用户喜欢用 Vim 然后用户不喜欢用 Vim 类似这样子就把一条记忆改得面目全非而且这样子也很不利于我去维护我本来认为这条是很好的 memory 但我也不能手动修改它但是这个引用全部对话的功能我暂时没有想到什么应用场景我就是个让你总结一下我之前的对话那它确实就把我的

比如说我干了什么事情给我列出来还没有体验到它的有用的地方我想有一个用处有一个用途可能会比较有用就是如果你把 ChadGBT 当做电子猫娘来使用的话这个电子猫娘能记住你以前都跟它说过什么好像还是挺有意义的你有了解它的记忆功能它这个新的记忆功能上下文窗口有多大吗它是把所有的

先索引到一个聊天记录然后把所有聊天记录都同时发给 ChadGBT 吗应该不行吧那 ChadGBT 的上下班窗口再大也经不起这么用啊而且这么着搞的话 OpenAI 的服务器成本就飙升了对啊总之这个功能还需要再用一段时间才能给出评价然后 SlamMotorman 说这是一个非常激动人心的时刻搞得我早上

起来激动的不行太会营销了讲道理这个功能不就是一个 reg 吗对两年前就能做出来我都能做出来这么说就是我想象的无数个 ACI 时刻其中之一是那种让我早上在床上都兴奋的不行的一个功能原来 AGI 的定义已经低到这种程度了吗

Sam 的这种营销文案我估计差在 GBT 都写不出来肯定写不出来 GBT 人家可实诚了不会像 Sam 写这种误导人的这种全小写连拼写都不是很规范的这种推文

然后下一条关于拆的 GBT 的是 GBT4 将于 4 月 30 号停止支持但这个功能老实说我也很长时间没有用过了是现在都用 4 欧但是 GBT4 就是最开始的这个 GBT4 这个版本还是有很多人比较喜欢的因为 4 欧的话它可能比如进行一些文学创作它可能显得没有 GBT4 那么有灵性好

很多人还是会倾向于用 GPT4 我想的是 GPT4.5 是不是就是用来取代 GPT4 的这样把 GPT4 模型给取消掉就能腾出来 GPU 分配给 GPT4.5 用了那么我们的这个限额是不是也会降低呢限额提高就 GPT4.5 现在每周只能用 50 条太少了

我本来想把 GPD4.5 切完 4 欧的但是太少了这完全不够用

对不仅少而且 GPT4.5 的速度也特别慢是感觉这个模型规模会特别的大就现在这个 LIM 我觉得就推理能力啊现在看来好像是哪怕是小型的模型也能有比较好的推理能力甚至像什么 1.5B 的这种大小的模型也能在像数学推理这种任务上取得很好的性能但是像大模型这个幻觉啊

这个幻觉可能真的是需要模型参数量去堆的因为你的模型的这个事实是存储在这个权重里面那你权重这个越多那么你能存储的事实就越多那么你的这个幻觉可能就越少应该是这么个逻辑嗯很有道理那么接下来是 Meta 发布了 Lama4 就是那个开源的 Lama 模型

这个 Lama4 可谓是命途多舛在它没出来之前大家都聚集期待说这个 DeepSick 整出来 DeepSick V3 牛逼千万千万 2.5 牛逼然后谷歌 Gamma3 27B 哇这个性能很好牛逼那么开源界的老大哥开源 LM 的老大哥 Meta 的 Lama4 大家就聚集期待说哇 Lama4 能整出来什么新活呢

他真的整出来一些新活只不过是不是好活那么四次发布之后在 LM Arena 这个大模型排行榜上面他一发布直接冲到了第二名仅次于谷歌的 Gemit 2.0 Approach 是一个必然模型大家一看哇牛逼这 Meta 整出来一个大活结果仔细一看有两个问题

一是排名第二的 Lamass 模型现在还没开源它叫 Lamass Behemoth 说规模特别大 400B 但是没开源开源的是更小参数量的版本性能自然就差一些并且大家还发现 Lamass 它的实际表现远远不像它的跑分看起来这么的好

甚至有人说他可能把这些开源 benchmark 的测试机换到了他的训练数据里面这就是了不起的丑闻了当然 Meta 是否决了这一点但是在 LM Arena 迫于舆论压力以及说 Meta 跟他说他用的是在 LM Arena 上用的是一个所谓对话增强版本的模型

这个模拟是专门为人类偏好训练的所以他的回答会充斥着看起来情绪很饱满然后用很多标年符号用很多 emoji 回答也很长然后人类的测试者一看哇这个看起来很不错然后就选了他所以他的得分就很高但实际上他的性能也没有这么好

然后现在 Iron Arrida 又重新上了 Lama4 的模型然后新的模型应该就是和开源的版本是一致的 Lama4 的成绩就一落千丈直接掉到了第 32 名还不如 NV 训练的 Lama3.3Namotron 和 DeepThink V2.5 都不是 V3 是 V2.5 这个性能就很差了

这也太差了 LM Arena 如果想要上它排行榜是要 LM Arena 他们的团队来测试还是说 Meta 发布一个 Meta 他们自己用 LM Arena 的测试方法测一遍就可以提交了

是 Meta 提供这个模型的权重或者说 API 然后这个 Arena 的测试原理是它在它那个排行榜它是在它那个大模型竞技场上把你这个模型加进去然后让用户来打分用户问一个问题然后同时调用两个模型来回答你的问题

在用户不知道哪个模型是哪个模型的情况下用户去选择说这个更好或者那个更好然后算一个 1 楼的分数出来这个 1 楼就是模型对模型的它原本是一个在比如说象棋国际象棋里面会用的一个评价标准它可以算出一个人对另一个人相对的赢的比例

也要以此为基据去算分数所以说这个分数它其实不是线性的你看像 Google 的 Gemini 2.0 Pro 它跟像排在后面的什么 DeepThink R1 这种只差了 50 分但这 50 分其实区别已经很大了拉巴 4 这次就利用了排行榜的人类来打分的这叫什么缺陷 bug

然后专门训练了一个讨好人类的模型然后这个模型的分数就巨高原来如此 Meta 的这个大语言模型训练感觉也遇到问题了对,他的 GNI 部门的负责人好像已经辞职了这整个还沸沸扬扬的就已经意识到了在这边干没有前途吗这就具体的情况就不清楚了

还是挺可惜的是现在开源模型的三巨头好像变成了 DeepSick 千万以及 GoogleLama 好像有点掉队了对好那么接下来是 Google 发布了 Viu2 视频生成模型

这个模型我试了是感觉能力还是很强的就它生成视频的这个视频的这个逻辑就它的合理性要比 Sora 要好非常多 Sora 生成的视频往往会有一种慢动作质感就感动的很慢的样子然后 V2 看起来就很正常

并且对于物理规律的理解 Viu2 也要来得更好一些我有个很有意思的感受是 Viu2 它生成的视频和其他的这种 AI 生成的视频有一个区别就是它生成的特别看起来特别真实就和我们之前说的 Whiskey 很像它生成的图片有一种你能够在 Google 搜索上搜到的这种图片的感觉

感觉更加真实可能用的训练集不一样是毕竟 Google 有 YouTube 的确实然后下一条新闻是 Office 考虑换新图标了微软又在坐腰了有必要换感觉是微软内部的一个部门说我们这个部门好像没有什么工作业绩不行得体现一下我们的存在感这图标换一下了显得我们干活了

像微软现在对 office 做的事情一直很难让人理解 office 它本身就是一个已经家喻户晓名气很大知名度很高的一个品牌和产品随便改它的图标感觉不是很妥当而且它改动的幅度并不小它把之前锐利的风格改了非常语言润

有一点抹平了每个图标的特征比如说 word 是一行一行的这个象征着一行一行的文字 Excel 就是那种类似于表格中间加了一竖杠然后 PowerPoint 是一个球是一个圆形然后现在呢改成了各个地方都加了一些圆角像是书页的感觉像 Excel 它原本的这个图标感觉还挺

合理的它是类似于表格的那么一个质感 Excel 图出了它单元格它最重要的特征然后新版本的图标就不太看得出来说这个图标为什么会是 Excel 感觉没什么逻辑就失去了单元格 Excel 最重要的特征对单元格应该是横平竖直的它改成它加了点圆角进去就看着很怪是包括 OneDrive 之类的都没什么必要改

是的我一直觉得 office 的这些图标设计的非常非常好在扁平时代里面设计的非常非常好当然点评可能会觉得微软觉得有点过时了想要稍微加一点泥物进去但我觉得好像加的不是很好是的另一个我觉得不太好的改动是他把 word 的 w 还有 excel 的 x powerpoint 的 t

挪到了左下角之前是在左侧的中间你挪到左下角之后我觉得辨识度也会降低主要是看着不太好不太好看只要看着好看的就什么都好说那倒也是现在发布了吗现在应该只是有这么个传闻对是微软在发邮件调查说觉得这套新图标怎么样还没有决定说真的要换

微软应该调查调查我我给你写一个不好如果是之前的话我可能就无视他了那么现在要锻炼一下我的勇气给他说不好非要使用核武器天哪这是一个崭新的核武器然后下一件事还是微软的微软要继续改 Win11 的开始菜单

我们知道之前 Win11 开始菜单里面有一项我们非常非常不喜欢的地方就是最近使用的项目可能里面会是一些应用一些文件以及一些你不想让别人看到的文件那这个地方就很鸡肋没什么用然后还会有一些还会有一些不方便的问题

然后微软就想着把这个地方改了改成类似于文件夹的样式比如说一个 productivity 里面有浏览器文件之类的这些软件这改的感觉跟 iOS 应用资源库一模一样

对跟自然酷非常像这个感动我感觉其实我看起来倒是还行对挺好的比之前没什么用的共享要强太多了只能说微软花了 5 年时间才意识到说原来这个共享压根没人用这才改太慢了早干嘛去了是啊

那么以上就是本周的所有科技新闻了确实不多大家如果想看更多的新闻可以去关注特朗普的处的搜索每天都有乐的看想看马戏表演可以去关注一下川普的新闻好那么我是周周我是飙飙我们下周再见拜拜拜拜

WTR | Llama 4 排行榜作弊？Office 又要改图标？ 23:07 Share

一周科技回顾 | WTR

Deep Dive

Shownotes Transcript

WTR | Llama 4 排行榜作弊？Office 又要改图标？