We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 2025-06-14 | Google Cloud 全球故障引发大规模互联网瘫痪

2025-06-14 | Google Cloud 全球故障引发大规模互联网瘫痪

2025/6/14
logo of podcast Hacker News

Hacker News

AI Deep Dive AI Chapters Transcript
Topics
本次 Google Cloud 和 Cloudflare 的大规模服务中断暴露了云计算和 AI 基础设施的脆弱性,各类热门工具和服务瞬间失效,引发全球范围的讨论和关注。 Cloudflare 的服务中断与 Google Cloud 的故障同步发生,影响了依赖 KV 存储的产品,导致 RCS 消息、Discord、Slack 等应用出现连接问题,甚至有开发者调侃需要回归手写代码的时代。 评论指出,云服务在基础设施和服务依赖上存在脆弱环节,官方状态页更新不及时也加剧了用户的不确定性。有人认为独立物理服务器才是更可靠的选择。

Deep Dive

Chapters
Google Cloud 和 Cloudflare 几乎同时发生大规模服务中断,影响广泛,暴露了云计算和 AI 基础设施的脆弱性。此次事件引发全球大讨论,评论指出大型云服务在基础设施和服务依赖上的脆弱环节。
  • Google Cloud 和 Cloudflare 同时发生大规模服务中断
  • 热门工具和服务受影响
  • 暴露了云服务基础设施和服务依赖的脆弱性
  • Chemist服务当机与身份与访问管理服务相关
  • Cloudflare部分依赖KV存储的产品短时瘫痪

Shownotes Transcript

大家好 欢迎收听黑客新闻中文日报今天的科技世界相当不平静首先 Google Cloud 和 Cloudflare 几乎在同一时间接连发生大规模服务中断让整个云计算和 AI 基础设施行业暴露到了聚光灯下一时间各类热门工具和服务瞬间熄火 引发全球大讨论

与此同时,Meta 宣布向数据训练领域新贵 Scale AI 投下惊人的巨额投资不仅金额创下历史新高,还有团队流动的新动向掀起了全球人工智能圈的新一轮格局洗牌还有安全领域的研究者发声,反思频繁要求用户重新登录到底是在保护信息,还是无意中增加了安全隐患这些故事背后的争议和启示都在今天的节目当中一一解读快来和我们一起关注这些影响未来的重要事件吧

Google Cloud 近日出现大规模服务中断很多用户反馈包括 Cloud,Sanit4,Gemini Pro 在内的热门工具无法正常使用甚至连 Farbase 授权也受到影响一些开发者的 API 请求出现 Visibility Check 失败无法加载策略等报错据了解是 Google 内部用于项目状态和全线校验的 Chemist 服务当机同时 Google 官方也确认这次故障和身份与访问管理相关的服务有直接关系

不仅如此,Cloudflare 也同步出现服务异常,部分依赖 KV 存储的产品短时瘫痪,RCS 消息,Discord,Slack 上很多用户反馈软件连不上,甚至开发者调侃不得不暂时回归用手写代码。

评论区不少网友认为 这次事件暴露了很多大型云服务在基础设施和服务依赖上的脆弱环节也有用户批评官方状态页更新之后 30 分钟都没有详细说明导致一线开发和产品团队很被动还有人调侃独立物理服务器才是真正的避风港

频繁要求用户重新登录其实并不会让你的账号更安全反而容易打断工作流程并且加重用户的烦躁情绪 Tailscale 一篇博客详细解释了这种频繁认证的做法其实是老旧思路它既不能有效提升安全反而有可能让用户出现密码疲劳重复使用同一个密码或者轻信钓鱼邮件进一步增加安全风险

如今的安全措施更应该注重后台实时检测 像设备掉线或全线变更可以马上自动失效而不是依靠几小时一次的强制重新登录 一些专家建议只有在进行敏感操作前再进行一次身份验证而不是用固定时间间隔去打扰用户评论区里有网友吐槽像 app 产品这类品牌时不时的弹出密码框导致体验极差

也有人指出,很多企业只是为了满足审计合规,才不惜采用这些过时规则,但其实这些要求并不被现代安全专家所推荐还有网友提醒说糟糕的用户体验,本身也可能成为安全隐患,让用户容易忽略真正的安全风险 Gemilock 这个被广泛使用的内存分配器,最早在 2004 年诞生,至今已经有将近 20 年历史了

过去这些年,Gemlock 凭借开源软件的机制,一直对外开放,影响了非常多的主流项目,比如 FreeBSD,Firefox,Facebook,甚至 Redis 都用它来优化内存管理。不过,现在它的主线开发已经基本结束,主要原因是核心团队特别是 Meta 这边,对基础技术的投入下降了,转而更关注投资回报,所以像拥抱大页内存和更复杂的管理逻辑这些新特性,后续基本停滞。

作者在回顾 Gemlock 的开发经历时也说,虽然有一些遗憾,比如曾经为 Firefox 单独分叉,后来移除了 Valgrind 支持引发争议等等,但整体看这套系统无疑带来了极大的性能和稳定性提升。回看评论区,很多网友表示 Gemlock 大幅降低了内存碎片,让他们公司服务稳定下来,还有开发者感叹,用 Gemlock 写游戏引擎就是常识级的选择,也有用户担心,今后向 Redis 迁移出 Gemlock 之后,性能会不会受到影响。

有一个名叫 If the moon were only 1 pixel 的网站,用极简的方式精确还原了太阳系的比例。如果把月亮缩小到只有一个像素,太阳,行星,卫星的大小和距离都会被拉成看起来格外遥远的点,绝大多数屏幕空间都是空白。页面上你可以像开车一样横向滚动,一路经过地球,火星,木星,土星等,每到一个新行星都会提醒你还需要多远才能到达下一个目的地。

这样缩放之后,太阳系的空旷和遥远变得非常直观,甚至能让人感叹绝大多数宇宙其实全是虚无,真正有物质的部分只是极小一撮。作者还用幽默的旁白,比如如果真想靠开车穿越太阳系需要 500 年,或者从地球到火星大概得准备 2000 部电影打发时间。评论区里有网友说,打开光速模式能更深刻体会到宇宙的空旷,还有人被页面简单但巧妙的 HTML 和 CSS 设计打动。

也有人提到其实用肉眼能看到木星火星这些星体真的很神奇毕竟它们相对地球太远太小了 2010 年 HP 以 12 亿美元收购了 Pong 想借助 WebOS 进军移动平台但仅仅 49 天后这个战略项目就被砍掉了本文作者是当时的 HP 首席技术官他亲自牵头技术禁掉并推动董事会批准了这笔收购

他对 WebOS 的多任务 UI 设计和底层架构高度认可 认为这是 HP 在移动市场脱颖而出的机会最初计划一切顺利 但在收购刚完成一个月后 老 CEOMark Hurd 被换掉 新任 CEO Leo Apotheker 是做企业软件出身他上任后彻底改变了方向 想把 HP 从硬件公司转型成软件和服务公司 对硬件和移动业务都不感兴趣

2011 年,作者因突发病情需要手术,8 周无法工作,正巧那会儿 HP 推出了搭载 WebOS 3.0 的 Touchpad 平板,价格定到了 499 美元,直接对标 iPad,却没有 App 生态和品牌号召力,产品仓促上市,体验也不够好。结果 Touchpad 登场仅 49 天后就被宣告停止销售,大量库存无人问津,950 万台 iPad 销售的同时,Touchpad 却只卖出了 2.5 万台。

听到消息时他正卧病在床,眼睁睁看着曾经力推的技术项目,被高层草率否定。后续 HP 内部工程师们认为真正的问题不在于 CTO 不在公司,而是 CEO 的跨界经验与 HP 业务规模完全不匹配。

评论区有网友指出,WebOS 本身技术强大,但 HP 缺乏耐心,管理混乱才是失败主因。也有人质疑,文章作者为何等了十多年才讲这件事,同时对他把全部责任推给高层的做法不太认可。还有怕老用户怀念老设备的人性化设计,并认为 HP 在企业与消费市场的定位摇摆,也是失败的导火索。

Meta 计划向数据训练领域的初创公司 Scale AI 投资 143 亿美元,这也是 Meta 首次对外部公司进行如此大规模的少数股权投资,占到了 Meta 2024 年收入的十分之一。根据协议,Scale AI 的 28 岁 CEOAlexander Wang 将加入 Meta 担任新成立的超级智能实验室的高管,并会带领一部分原 Scale AI 的团队加入。

这笔交易背后,是 Meta 希望借助 Scale AI 在数据处理和 AI 训练方面的能力,来强化自己在人工智能领域的竞争力,尤其是在追赶 Google、Microsoft、OpenAI、Anthropic 等同行的背景下。Meta 发言人表示,两家公司将在 AI 训练数据的生产环节展开更深入合作。

评论区网友对这笔交易讨论热烈,有人觉得 Meta 这是史上规模最大的团队收购,更多是为了把 Alexander Wang 和他的团队直接引入,而不是看中 Skill AI 的产品。也有人对 Skill AI 的数据质量和名声表示担忧,怀疑这笔投资是否真的能改善 Meta 的 AI 表现,还有分析认为,这种大手笔可能更多体现了 Meta 目前在行业竞争压力下的焦虑和不确定性。

有开发者分享了如何在 GPU 上渲染清晰锐利的文本,他发现用传统 SDF 技术渲染字体虽然效率高,但对一些细细的字体或者复杂的笔画,效果并不好,特别是在新款 OLED 显示器的非标准子像素排列下,经常会出现字体边缘发虚,踩边等问题。

为了解决这些困扰,它这次没有采用常规的离线生成纹理方式,而是直接把字体区限数据实时传给 GPU 做山格化,这样无论放大缩小都能保证字体细节清楚,同时还能针对不同显示器自定义子像素抗聚尺,通过提高采样次数和本地封装内存复用,在性能和画面质量之间取得了很好的平衡。

核心思路是,只针对当前屏幕上真实可见的字型进行高质量实时渲染,并把渲染好的部分暂存下来重复利用,这样即使页面上的文字很复杂,绝大多数时间都不需要重新渲染,大大节约了 GPU 资源。

文章最后作者还感慨说,其实主流操作系统和浏览器面对复杂子像素排列和抗聚尺时,并没有利用 GPU 做更高质量渲染,还是停留在几十年前的技能,看得出来想在现有系统里彻底更新自体渲染方案也不是一件容易事。评论区有网友提到 GTK4 把渲染迁移到 GPU 后反而放弃了 RGB 子像素,说明业界关于这类技术实现仍有诸多权衡。

还有人表示,随着屏幕分辨率提升,子像素抗锯齿实际意义在减弱,但对于低分辨率和特殊屏幕结构,好的抗锯齿效果依然很重要。不少开发者也希望显示标准能提供更灵活的像素布局信息,让软件能真正适配各类硬件的子像素结构。

Cloudflare 在 6 月 12 号发生了大规模服务中断主要原因是关键的 Workers KV 服务因为依赖的第三方服务故障导致下线受影响的包括 Access Warp Browser IsolationDurable Objects Workers AI Stream 部分 Cloudflare 控制台等一系列产品技术团队紧急排查修复大部分服务在事件发生后几个小时内开始陆续恢复目前所有服务已经恢复正常工程师也在持续监控平台的稳定性确保没有新的问题出现

评论区有网友指出这次故障背后的依赖问题比如 Cloudflare 部分服务其实依赖的是 GCP 也有用户怀疑 BGP 路由出现大面积异常导致多家云服务商一同受影响还有人调侃 Cloudflare 之后又要写一篇博客讲怎么拯救互联网了一位用户在 HackerNoods 上发帖提问曾经在自己还一无所有年轻困顿时有不少人曾经伸出援手后来他的人生慢慢变好了想知道应该怎样回馈这些曾经帮助自己的人

评论区很多人都认为,比起只想着回报某个人,更多的时候应该把当初得到的善意传递下去,帮助更多还在路上的人。有的网友分享了自己第一次去 DeafCon 大会,人生地不熟,孤单又拮据,被一位前辈带着体验当地的乐趣,也收获了不少贴心建议,于是每年只要再参加大会,他都会主动去找那些和当年自己一样需要帮助的新朋友,像当年那位前辈一样帮他们省钱,度过难关。

还有人提到,其实大多数善意的行动,背后都不期待直接回报,哪怕是做一份有意义,不伤害别人的工作,也已经是对社会的回馈了。当然,也有网友建议写一封感谢信,哪怕只是短短几句话,直接告诉他们,你因为他们的帮助而变得更好,也会让对方很高兴。整体来看,评论区普遍支持 pay it forward,也就是把当年收到的善意传递给后来的人,让善意不断延续下去。

OxCaml 是一组为 OCaml 编程语言打造的高性能扩展,目前已经作为 GeneStreet 的生产极编仪器在用,也承担着实验平台的角色,很多改进都已让 OCaml 更适合性能导向的编程为目标。

ArcScamO 的重点是在保持安全和易用的基础上,让开发者可以灵活精确地优化程序性能,比如它增强了并发安全能力,增加了对内存布局和 SIMD 指令级的支持,还能更细致地控制内存分配,从而减少 GC 压力,同时还为日常开发增加了像标签元组、不可变数组这些便捷功能。

ArcScamL 和 OCaml 完全兼容,所有 OCaml 程序都能直接用,还能兼容 Doon 和 Opam 这样的主流开发工具,但需要注意 ArcScamL 的一些扩展还处于实验阶段,未来可能会有变化。

有开发者评论说,像 SIMD 显示站分配这些特性让 AuxGamel 在一些场景可以取代 F 景,如果将来支持 Windows,将会特别适合做游戏开发和其他偏消费端的项目,也有网友期待它和 Visco 能进一步集成,提升开发体验。还有人认为,AuxGamel 之所以叫 AuxDies 并不是因为用到了 Rust,而是希望借鉴 Rust 的无所并发等设计理念。

感谢收听今天的黑客新闻中文日报我们希望这些前沿的科技动态和行业思考能够为您的每一天注入灵感如果喜欢我们的内容别忘了订阅转发并告诉你的朋友我们下期节目再见