We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode WTR | iOS 19外观大变?Gemini最强P图AI;你听说过MAR10日吗?

WTR | iOS 19外观大变?Gemini最强P图AI;你听说过MAR10日吗?

2025/3/16
logo of podcast 一周科技回顾 | WTR

一周科技回顾 | WTR

AI Deep Dive Transcript
People
招招
飙飙
Topics
@招招 :我体验了Google Gemini 2.0 Flash的多模态版本,它的图像编辑能力非常强大,可以做到图像的原样输出、物体移除和添加、风格转换以及文本的生成。虽然在处理中文方面还有提升空间,但整体效果已经非常优秀,几乎可以媲美甚至超越现有的图像编辑软件。它就像一个可以用自然语言操作的Photoshop,极大地提高了图像编辑的效率和便捷性。 此外,Gemini 2.0的Deep Research功能也给我留下了深刻的印象。它可以根据我的需求进行资料搜索和总结,并支持一键导出到Google Docs。虽然在处理中文搜索方面还有提升空间,但整体体验良好,极大地提高了我的信息收集和整理效率。 关于iOS 19外观更新的消息,我认为iOS目前更需要的是修复bug,而不是外观更新。虽然VisionOS的设计风格很吸引人,但将这种风格应用到手机上,可能会面临很多挑战,例如APP的适配问题等。与其追求外观上的改变,不如先把系统现有的bug修复完善,提升用户体验。 @飙飙 :本周是MAR10 Day,也就是马里奥日,任天堂从2015年就开始庆祝这个节日了。 另外,游戏Split Fiction(双影奇境)的体验也非常好,画面和创意都有很大提升,延续了双人成形的玩法,但更注重友情故事,并致敬了许多游戏史上的经典元素,是一款非常值得推荐的游戏。

Deep Dive

Shownotes Transcript

2025 年 3 月 14 日上午 11 点 20 分欢迎收听最新一期的 WTR 一周科技回顾我是主持人招招我是飙飙

我们会在这个节目里面讨论最新最酷最前沿的科技新闻和我们的数码产品使用心得这周我在一个会议室里面录我在我通常在的那个房间所以这个地方问题就在于魂想会比较重一点因为周围都是这些玻璃墙玻璃门还有光面的墙这些所以魂想会重一点大家体谅一下但我这听起来倒还可以

可能是有耳机的降噪或者 iPadOS 的降噪对就苹果它做了这个语音凸显然后我发现语音凸显之后这个声音听起来确实会好一些就包括你那边说会有这个什么车经过的声音我是完全听不到那我觉得应该是因为 AirPods 这个小小的麦克风确实录不到外面的声音也有可能好那我们说回本周的新闻

第一件事是 Google Gemini 2.0 Flash 的多模态版本发布了这个多模态版本相当的强它叫原生多模态也就是说它应该是输入图像它不是说比如调用一个 division model 用什么 function calling 或者 tool use 去调用一个 division model

它也不是说输出一些 logits 然后直接用 diffusion 去 decode 的这个 logits 它是直接用一个 autoencoder 把输入输出的图像都编码成 token 这样既可以把输入的图像编码成 token 也可以从输出的 token 去解码图像就是所谓的原生动物模态我还 google 的这个原生动物模态做的是真牛逼啊

它是能做到这种任意比例的合像输出它能做到图文混合输出比如说你让它给你写一个什么儿童绘本它就能给你图文并茂地输出一篇故事还带插图呢而且它的图像编辑能力是特别的强它首先的一个最重要的能力就是它能做到你把一个图像原样输进去然后它再给你原样输出出来

非常的了不起你可能会想这个什么了不起的对吧这原样数数数谁不会那实际上这个还挺难的因为对于这个你想他要把这个图像编码到这个 token 那 token 呢你想他的多少个对吧你要么呢就这个 token 数量很多你有很多很多 token 去表示这个图像这样一来呢虽然可以表示的比较准确但是呢你的 contact 的长度就会特别长

要么你就降低图像的分辨率然后这样来降低这个 token 的编码出来 token 的长度要么你就想办法去提升这个 token 的密度你去用比较少的 token 去表示这个图像但是这中间又会涉及到非常巨大的信息损失也就是说你输入输出的图像就不一致了就不完全一样了像之前字节还有其他一些人他们其实也做过相关的这种类似的原始动物模态的模型

但就是从他这个问题就是你输入输出的头像不一致因为很难做到这一点但是 Google 这次做的这个 German 2.0 Flash 的这个原生动模台哇很了不起他输入输入头像几乎是完全一致当然对一些特别有挑战性的场景比如说有这种包含比较小的中文字的时候他可能中文能力还不太强可能没有专门训练过吧就中文会出现扭曲的情况

但总的来说这个效果是非常非常的好这种用自然图像几乎是没有任何问题几乎可以说是完美就这个是它图像编辑能力最重要的一个基石然后在这个基础上它可以做到比如说可以移除这个场景里的物体你就用语言告诉它说你把这个东西给我去掉然后它就能给你去掉然后填充的这个部分呢可以说是天衣无缝

效果很好比什么 Apple Intelligence 这种还是强太多了而且它是用语言制定的所以你可以说我把背景里的人物全都去掉然后他就会把背景的人全都去掉但是保留前景的主体的人包括你可以说你甚至还可以让他去做物体的编辑比如说照片里有一个南瓜你就可以说你让他说你对他说这个南瓜给我大一点

然后他就把南瓜变得大一点然后其他的东西就没有变化再比如说他甚至可以做到图像风格的转化我把一个真人的照片上传上去让他给我画一个这种漫画风格的画然后他就能画出来虽然说要尝试很多次但是能画出来然后能有一点神韵在里面这个人的神韵

然后我还尝试比如说把一张黑白的图像给上传上去然后呢让他给彩色化哎这也能做到就是图像相关的这个呃他几乎可以做到就是任意图像的输入然后你任意你想要的这个图像的输出啊这个是非常非常了不起的听起来像是能够用语言自然语言操作的 photoshop 或者比次 photoshop 更加强大

这不就是现在 language model 这些语言模型能做到比如说你上传一个你写的东西上去让它给你润色一下它就给你润色一下或者让它怎么给你修改一下让它给你修改一下这就跟这个语言模型的使用体验几乎可以说是一致了它的图像生成能力也很强就是单纯的这个文生图它比较强的一个能力就是它可以生成图像里的文字

像一些比较简短的文字它生成几乎可以说是没有任何问题比如说我让他生成一个什么咖啡店招牌上要求是什么什么比较简短的字它是生成的可以说是天衣无缝那到中文还不行中文的话它只能做到似是而非的程度不过它这个似是而非呢

看着还是比像什么 Dali 或者说 BitJoy 那些要强它就是它勉强有几个字可能是可以辨认的不是说完全辨认不了但也仍然是这种非常非常差的程度对那这应该只是没有针对中文或者说其他的这些多语言专门训练过的这个后果但是这个生成文字能力很强它甚至可以生成大段的文字

我把一个 700 字的 700 个词的这么一个一小篇英语文章的节选丢给他让他给我生成一个海报海报上就是这些字他也能做到但效果不完美很多字你看起来仍然会有变形或者说缺失或者重复这些但大体上是没有问题的

这也挺强的就我发现文本生成好像是这个纹身图领域最难的任务至少是之一吧这是非常难的一件事情然后它的性能也很不错就它现在做的非常的泛滑就让我有一种原生多模态模型的 GBT3.5 的时刻就它的泛滑能力很强

虽然说能力可能还有待提升很多时候你需要尝试可能十几次甚至是几十次才能有你想要的结果但是这个能力已经有了它已经有这个雏形了它之后如果说继续去迭代它现在用的还是专门的 2.0 Flash 去做的这个原生多模态它之后如果用更强的模型比如说 2.0 Pro 去做这个多模态的版本那想必性能还能有比较大的进一步提升

就 Google 在面的 2.0 这个 Flash 动物态版本啊他这个没怎么宣发但是做出来确实是非常了不起而这跟现在大多数这些 AI 公司的套路还是不太一样现在大多数都是像那个 Mando 就是你 hype 很高你这个

这种宣发很到位但是实际做出来怎么样那也就那样也就那样可能人家一个什么开训台在几个小时就能给你复现出来就这么 cue 了一下我本来就想避开这个话题呢然后除了这个做模块版本的 Gemini 2.0 FlashGoogle 还把 Deep Research 带到了 Gemini 上面我用了一下能力也非常的强

你可以告诉他你想要研究什么然后他会先给你生成一个详细的研究资料卡片就是他会去干什么他真要去干什么然后你确认要不要修改之后就开始帮你用 Google 搜各种各样的网站各种各样的资料把你总结成一篇汇报最后还能够一键导出到 Google docs 里面是现在这个 divs search 各种平台其实都有做

但是像这种会确认你需求的好像除了 GBT 我也就看到 Gemini 有做这个事当然这个并不是说这个模型主动求问这应该是它在 Prompt 里面设置好就会有这么一个流程但这个确认这一步呢就比较有意义因为你 Deep Research 一次它可能要几分钟对吧十几分钟那十几分钟之后你一看我靠它模型理解错我的意思了那再来十几分钟那这个就很消耗时间

所以先在这个 referral 之前给你确认一遍你的需求是什么样这个我觉得还是很有必要的我今天就让 Grog deep search 了一下然后发现他给的结果牛头不对马嘴的就和我提的需求一点关系都没有然后这可是谷歌做的谷歌做的搜索产品那 B 不能不强反正我刚才试了试确实还可以

当然我用的是免费版的这个 Gemini 2.0 Flash 去做尝试我让他去搜索说最近 GPTGAR E0 的复刻的开源复现的这些项目然后他啊吧啦吧啦给我做了一个报告我觉得写的还挺好的不过和 ChatGPT Plus 用 GPT4O 去做这个 GPT Research 相比呢它还是稍微差一点它漏掉了一个项目漏掉了一个港客上做的项目

说到这个,就他的 research 的时候,GBT research 有一个问题,就是如果你用中文回答中文向他提问,他就会用中文去做 research。但是我们知道中文互联网上,那基本上是没有什么东西的,基本上都是垃圾,对吧?那我们肯定要去英文互联网上去搜索这些前沿的技术。

所以你就必须在 prompt 里面告诉他说你回答的时候用中文但是 research 的时候用英文这样 JPG 才会去英文会员网上搜索而 Gemini 我就试了一下我就没有提这个要求就让他去搜索用中文向他问让他去搜索这个 RE0 相关的这项项目然后发现他一开始确实是中文和英文的内容都有在看

但是之后他就只看英文内容了这就很聪明这就很聪明就我甚至没有指定他这样其实就更好万一比如有一些内容一些中国互联网上特有的内容如果我一直保持这个什么去英文互联网上搜索这种要求那可能还不太对那如果说他能自己指导说哪些内容该在中国互联网上搜哪些内容该在英文互联网上搜那就更好了

我说这个还是做的挺好这个细节像 Grok 它就只会用英语去搜它 Resource 永远会用英语当然这个也比 JPG 说它动不动用中文去搜要好有了 Deep Search 功能之后我发现我越来越少用没有带 Resource 功能的这种搜索了它帮你搜索很多资料并且帮你把这些资料都汇总起来结果看下来就特别的爽是

下一条新闻是本周有一个 Mario Day 这个其实 Mario Day 它是一个谐音梗吗谐形梗它是由 Mar 然后 ten 一和零组成的这个 Mario 然后 Mar 就是这个 March 三月的意思这三月十号就是这个 Mario Day

太冷了天哪然后我去调查了一下这个 Mario Day 它是从 15 年就开始有了 15 年任天堂就开始庆祝这个 Mario Day 了那么今年 2025 年就是 Mario Day 的十周年哇这个东西居然存在了这么久

太冷了谁想到就类似的还有什么 3 月 14 号的派对啊对对昨天是派对对昨天是派对我现在没有意识到说到派对我看到了一个很有意思的图就是有个博主拿了一堆手机组成了那个派 3.1415926 的那个

然后 3 就是那个 Nothing Phone 3 然后 14 是 iPhone 1415 是 iPhone 159 是 Pixel 9 那照这个逻辑 iPhone 没有 9 等于 Pixel 9 合理这个创意很棒

然后在 Mario Day 这天的话那自然就是马里奥游戏打折了像什么马里奥奥德赛啊马里奥赛车啊然后马里奥惊奇啊甚至是那个乐高的小玩具也是那个食人花也打折了挺不错的我第一次知道还有 Mario Day 这个日子挺不错的

下一条新闻是小道消息说 iOS19 将迎来外观更新而且是一次比较大的外观更新与 VisionOS 的设计风格接轨你怎么看呢好像也不只是 iOS 还有像 WatchOS iPadOS 甚至是 macOS 都会有新的外观更新

这是要复刻 iOS7 的情况吗怎么说呢就现在的这个 iOS 如果说真的像 VisionOS 一样加入更多的这种层次这种细节这种 3D 的细节就更加拟物一点的细节我觉得是很好的我是很喜欢这种拟物的特写风格的

但是我感觉 iOS 现在需要的恐怕不是外观更新吧先把 bug 修一修吧就现在 iOS 各种问题层出不穷就包括这种通知 bug 你要是滑得快了它就会通知就会闪烁然后后台你要是现在后台这个饱和度居然会发生变化就诸如此类啊

然后动不动就卡一下会掉一下针对包括你打字的时候有时候来个通知就会报音就这种问题我觉得 iOS 会需要一个比较大的 overhaul 就是你先把这些就像当年的 macOS NoLapboard 一样或者当年的 iOS12 一样就没什么新功能但是把现有的功能 bug 修一修完善完善

更何况苹果现在忙着搞 Apple Intelligence 恐怕也没有什么能力投入到这么大的一个系统的外观更改中不如就趁这个机会今年就不干别的光修修罢了然后这也算是 Apple Intelligence 给我们带来的好事我觉得对不对没什么功能更新这说的不就是 iOS18 吗对于国行用户来说

是但 LS18 的 bug 也不少虽然没什么功能更新但是 bug 也不少包括 macOS 也有各种问题像最近我一个朋友就最近几个月他一直碰到一个问题就是 macOS 连不上他实验室的 WiFi 也不是连不上就连上但是呢过一段时间就断网了断个一分钟然后再连上这个时候他的什么 SSH 这个

RDP 这些都会断开非常的烦人但是一直没有找到解决的办法会不会是他的 IP 被封了我也有个同学也有这个问题然后去联系了学校的 IT 说你的设备有风险然后就把他设备给加黑名单了离谱 也不是不可能

如果不是这个问题的话我在网上搜了搜发现确实也有一些网友也碰到了类似的问题这个问题好像还是 M3 M4 这一代的 Mac 做特有的就 M1 还有 M2 的 Mac 呢居然是没有问题的就 M3 M4 开始支持了 WiFi 6E 然后呢换了个新网卡然后呢就有这个问题那其实也可以很容易的验证你让它去连一下自己的热点

长时间连自己的热点看看会不会断就好了是的然后连他的安卓手机的热点呢是没有问题的就不会断就说明还是这个 WiFi 的问题就 MacOS 的 bug 也不少所以我还是希望苹果能修一修修一修不要天天折腾什么新功能了不要琢磨还是来个什么外观更新来个新的这种大的改变我都不知道这会带来多少新的 bug

我倒是有一个不一样的观点就是 Vision OS 这个设计风格的更新它可能本来应该是 iOS18 的更新但是因为 Apple Intelligence 被挪到了后面因为一年如果有太多更新的话那后面就不好更了一年一个更新点就好也合理但是苹果发现到现在才发现 Apple Intelligence 并没有实现自己当初说的那个效果所以 iOS18 就变得很尴尬

也合理毕竟 Vision OS 刚刚更新刚刚推出然后 iOS 18 包括其他的这些 OS 顺便来一个一起做外观更新还挺合理的一些 App 像 AppMusic 其实已经一部分的就适用了换上了新的设计风格包括新出的 Journal App 日记 App 日志吧那个 App 也是类似 Vision OS 的设计风格

对所以是有迹象通过其实内部应该本来是一直在努力攻坚这个 VisionOS 时代的设计风格的但是被 Apple Intended 打断了所以我觉得就这个设计更新倒是不会担心它完成度很差就它可能已经早就开始了完成度应该是我觉得起码可以有个 70%的信心这也太低了不是很高 70%对

不过再再说回来就是这个 VisionOS 的风格我倒是他这个风格是新的那还确实是新的但我

没有期望它会在手机上能做的多么好看因为我们在 Vision OS 看到的这个很漂亮的毛玻璃效果它的根源是因为它把现实世界给毛玻璃化了我们知道现实世界都是很丰富多彩的都是自然创造的所以把这个自然的景色

给模糊一下做成毛玻璃效果还是很漂亮的但你在手机上该怎么做呢难不成你要在每一个 APP 都配一个与之对应的底图吗还是说就把桌面的底图作为每一个 APP 的背景但这样做的话就太花了吧而且比如说你在打开第三方 APP 第三方 APP 也要适配你这个规则吗这里面就复杂的多了那真的要做的话第三方 APP 是需要适配的

这苹果不就是这样但我也确实这种风格应用到手机上不见得会好看不见得会好看尤其是图标不要改成也改成圆的那也看着比较怪异就我做了一个效果图感觉也比较怪异是确实很怪但也不好说比如说现在的控制中心你再去看之前的那个圆角矩形的控制中心什么玩意儿啊

怎么忍受得了这种控制中心呢怎么说呢你说的也有道理还真是还真是就现在就刚换成原型的时候我说什么玩意儿怎么还给换成原型了后来看着看着也还挺顺眼到现在去看原本的方形的控制中心反而不习惯了然后最后一条是 Spilix Fiction 双影奇境

是上周我们在录完之后我就和赵赵一起玩了一会儿哇 是真的好玩啊完全延续了双人成形的这种思路但是呢 每一个方向上每一个方面都有很大的提升比如说它的故事之前上双人成形是一个爱情故事那要是和朋友玩呢就会比较的尴尬现在呢变成了一个友情故事对吧

然后画面有非常巨大的提升有非常明显的提升跨时代的提升甚至在创意方面也很好就我目前玩到了很多这种稀奇古怪的所谓的 science story 就是支线故事

有比如说什么素描风格然后也有一些什么我变成猪了我变成小猪猪在这边跑来跑去还有这个黑魂里面的篝火然后可以跑到篝火旁边就坐下来还有这种黑魂风格的那个什么篝火点亮那么一行字就创意是很丰富的玩起来非常的开心

是的我觉得他就是让人一下子回顾了这个游戏史有种这样的感觉里面致敬了非常多的游戏并且不只是致敬游戏史他在比如说现代技术的应用上也做了各种各样的尝试而且这些尝试都是你可以玩得到的就是现代市面上的游戏相当于你玩了双向极竞你就把游戏这个大类别过了一遍也有道理我不知道他后面会不会出什么

像素分隔之类的但是平台跳跃已经有了就是这种平台跳跃设计已经有了对总之非常的棒然后本周 Split Fiction 还达成了 200 万的销量可喜可贺是我看现在双人成形已经有 2300 万的销量了现在上映其境不知道能不能超越双人成形

如果他能再拿下 TGA 的话我觉得是很有希望的确实但是 TGA 的话今年还有 GTA6 今年是个游戏大年我觉得 TGA 可能也没那么重要

我觉得双人成形它现在在国内很火我觉得主要不是因为 TGA 应该是比如这种很多博主在播包括这种口口相传说我玩了这个很好玩你也去试一试包括很多这种线下的游戏店也会放双人成形的游戏然后大家一起去玩我觉得更多的可能靠的是这种而不是说 TGA 有多么大的影响力

当然双元成型这个游戏真的就是开拓了蓝海市场像任天堂一样让很多不玩游戏的人也能参与进来我觉得这一点是非常棒的是那些臭大游戏里才多少那不玩游戏的人是大多数这才是大的钱对吧 Big money 在这所以我觉得双元成型或者双元奇境让我感到最有意义的一点就是让更多的人领略到游戏的魅力

确实尤其在中国对吧这个在很长一段时间内像这游戏主题你甚至是卖不了的导致很多人现在接触的都是这种手机游戏然后手机游戏有很多基本上都是这种课金手游我觉得就不是很好我觉得就不是很好去玩一玩像这样这种一次性买断的这种合家欢的

这种高质量的游戏会非常的有意义是的我刚刚又想到一个词叫电子游戏目录感觉捧得有点太高了那确实总之大概是这么个意思好那么以上就是本周 WTR 的全部内容了我是周周我是白白我们下周再见拜拜拜拜

We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Export Podcast Subscriptions