大家好,欢迎收听黑客新闻中文日报。今天的科技世界可谓波澜起伏。OpenAI 赤资巨资收购 Johnny Ive 创立的神秘 AI 硬件初创公司,这位后世行业对人工智能走向硬件化的巨大期待与质疑。与此同时,Google 正在挑战语言模型的速度极限,最新的 Gemini Diffusion 模型首次用 Diffusion 技术,而不是传统 Transformer。
带来了前所未有的文本生成效率,甚至能直接输出完整的交互页面,还有专为开发者打造的新开源 AI,Mistral AI 推出了号称能媲美币源巨头的 Devstra,让本地运行强力 agent 不再遥不可及。这一切新动向正在悄然重塑 AI 的产业格局,让我们一同深挖幕后的技术逻辑与行业思考。
OpenAI 正在以 65 亿美元收购由前苹果首席设计师 Johnny Ive 创立的人工智能设备初创公司,这项交易尽管十分引人注目,但目前这家初创公司还没有公开过任何产品,也没有正式的官网,Johnny Ive 甚至不会随公司一起加入 OpenAI。
这次收购显示 OpenAI 希望进一步布局 AI 硬件方向打通人工智能与日常生活设备的连接不过有不少业内人士也提出了质疑有评论认为仅仅依靠 Johnny Ive 的知名度和设计才华未必可以复制苹果当年的成功也有网友担心 OpenAI 在巨额投资硬件的同时是否还能保持大模型的技术领先还有人讨论到如果 OpenAI 没法解决大模型的运算成本和上下文窗口等技术问题未来很可能会被 Google 这样的对手超越
Google 公布了 Gemini Diffusion,这是他们首次在大语言模型里采用 Diffusion 技术,而不是传统 Transformer 结构里的自回归方式。Diffusion 模型的工作原理,是通过不断地从噪音中逐步精炼出有用的信息,所以生成文本的速度要比过去的自回归模型快不少。
在实测里面,Gemini Diffusion 输出 857 个 Token 只用了几秒,而且能直接生成带有 HTML 和 JavaScript 的互动页面,几乎可以和基于 Cerebras 跑 Lama 3.170B 的速度相媲美。Google 官方称它的速度可以达到 Gemini 2.0 Flashlight 的 5 倍,不过目前还没有第三方的完整评测数据。
评论区里有开发者提到,类似 Diffusion 的文本生成思路,其实更接近 BERT 这种早期的 Masked Language Model,只不过 Diffusion 可以恢复更多被 Masked 的内容,生成的过程也是并行完成的。另外也有用户讨论这种模型在代码生成、文本编辑和批量处理任务上特别适用,对速度和并发能力表示了很大期待,同时也指出了模型在应对 Prompt Injection 和大用户量时可能面临的新挑战。
Mistral AI 推出了面向软件工程的 Agentic 大语言模型 Devstra 这款模型由 Mistral AI 团队合作打造在 Swaybench Verify 基准测试中达到了 46.8%的分数领先当前所有开源同类模型超出了上一代开源模型 6 个百分点以上即便和一些体积更大更知名的闭源模型相比 Devstra 也能获得更好的表现比如在相同评测标准下 Devstra 的得分比 GPT 4.1 mini 高出 20%
DevStro 支持 Apache 2.0 开源协议,不仅可以在一台搭载 RTX4090 显卡或者 32G 内存的 Mac 上本地运行,还可以通过 API 按照每百万输入输出 Token 计费。Mistral AI 鼓励开发者在本地和企业环境中使用 DevStro 无隐私顾虑的处理代码,并欢迎社区反馈意见。
评论区有用户提到这个模型在文件体积和资源占用方面表现不错,甚至能在 8G 显存的显卡上完成部分简单任务。还有人认为,虽然基准测试分数亮眼,但真实体验依旧需要进一步验证,也有网友对清晰开放的许可协议表示肯定。Signal Desktop 现在默认在 Windows 11 系统上启用了屏幕安全功能,可以防止你的电脑对 Signal 聊天界面进行截屏。
这个功能主要是为了应对 Microsoft 即将上线的 Recall 功能,Recall 会每隔几秒自动对你电脑上的内容进行截图,并将这些截图保存在数据库中,方便以后检索。虽然 Microsoft 已经对 Recall 做出一些调整,但它依然对注重隐私的应用带来很大的风险。
为此,Signal 选择通过设置 DRM 标志的方法,让 Signal 聊天内容不会被 Recall 或其他截图程序捕获,如果你试图在 Windows 上截图 Signal,会发现画面是黑的。Signal 也坦言,这样的安全设置可能会影响到视障者等用户的可访问性,但如果你需要,也可以手动关闭此功能。
社区里有网友认为,虽然这个功能增添了隐私保护,但其实只是在与操作系统博弈,本质上应用很难完全防住系统层级的数据访问。还有人评价说,微软和应用厂商为了隐私之间的拉锯,最后却让用户不得不面对越来越多的 DRM 与复杂的权限设置。也有人支持 Signal 的做法,认为只有这样,注重隐私的用户才有更多的安全选择。
科学领域里常见的分辨其实并不是传统意义下的单位,更像是一种笔直的表达方式,主要用来描述信号强度的变化。
在历史上,最早出现的其实是贝尔,这个名字是为了纪念亚历山大贝尔,但因为贝尔代表的变化幅度太大,就被 1 分之 1 的分贝所取代了。这个设计本意是简化计算,比如信号放大 10 倍,就表示增加 10 分贝。但实际应用中,分贝的基准点并不统一,有时表示功率的变化,有时又跟电压有关,导致不同场合下分贝的含义很容易混淆。
像在升学领域,分贝实际上与空气压力有关,而在无线电里,dBm 代表的是相对于一毫瓦的功率,但 dBmu 却是只为伏特,这种命名很难一下子分辨出来。很多人吐槽分贝的用法混乱,知识壁垒高,但网友们在评论中也提到,虽然分贝用起来挺让人头疼,但在工程实际中确实方便了计算,把复杂的乘法变成加法,尤其是在信号处理或射频领域。
而且不同的习惯和历史原因常常主导着标准的制定最终让分辨演变成了你懂才懂的黑化体系麻省理工学院的理论计算机科学家 Ryan Williams 近期提出了一项重要证明突破了计算机领域长达 50 年未解的空间与时间关系难题 Williams 的研究显示在计算过程中如果给算法分配少量额外的内存往往可以带来笔记大提升运算速度更显著的效果
换句话说,适当利用额外空间,能让算法变得比只依赖时间优化更强大,这一发现挑战了很多研究者过去的认知。Williams 通过创新的数学方法,把以往认为必须消耗大量空间的算法,转化为只需很少空间即可完成,而这一点在整个算法领域具有广泛的理论意义。各界专家认为,这一成果不仅美观且意义重大,为探索经典的 P 和 P-Space 问题带来了新思路。
虽然距离最终解决这类理论难题还有距离,但它为后续相关领域提供了全新的突破口。在评论区中,有人分享了自己在实际编程时同样倾向于用查找表来换取时间,感叹空间剩余时间直观又常见,也有网友指出 Williams 的成果其实还启发了更多日常开发习惯。还有人提到,这再次提醒了大家,计算机科学很多看似朴素的直觉背后其实藏着难以突破的理论障碍。
一个网站用动画的方式展示了数字分解的过程,通过可视化的因数分解图表,帮助人们更直观地理解每个整数是如何由质数相乘构成的。在这些动画图里,像 3 的密次排列起来会自然形成类似 Sierpinski 三角形的图案,这种现象在图形出现时会让人眼前一亮。
用户还能看到把几十个数字因子分组成不同的形状排列有助于发现数字间隐藏的规律有网友表示如果能把这些动画速度放慢或者加入不进模式能更好的数清每组有多少个元也希望每天加一个元时能从屏幕边上逐步运进来更直观地看到数字的增加过程还有人建议把全部数字放到一页里还能做筛选和缩放说不定能借此发现更多有趣的数学模式
评论区不少人认为这样的可视化非常有启发性有助于激发孩子对数字分解和数学规律的兴趣也有人回忆起自己上学时就希望有这种形象展示的工具协作文本编辑被认为是协作应用里最难实现的功能之一这项技术通常需要用到 CRDT 或 OT 等复杂算法来解决多人同时编辑时的同步和冲突问题但是最近有开发者提出了一种更简单的方法不依赖 CRDT 或 OT
这个方案的核心是给每个字符分配一个全球唯一的 ID,比如 UID,这样每次编辑操作,不再用数组下标来定位,而是通过唯一 ID 在服务器端进行插入到某个字符后面或者删除指定 ID 的字符的操作。
服务器收到插入请求后,会直接根据这个唯一 ID 把字符加在指定位置,如果发生删除,也是把对应的字符标记为已删除,却不会真正移除,以便后续操作可以继续引用这些 ID。这样,多个用户同时在同一位置插入内容时,服务器按收到操作的顺序处理,对应的文字也不会被字符集的交错。
与 CRDT 或 OT 相比,这种方式逻辑非常直观,实现起来也容易,而且能很方便地扩展支持,比如部分加载大文档,全线控制或复杂的文本操作。
评论区有网友认为,这种方法非常适合以中心化服务器为核心的协作应用,思路简单易懂也有人指出大部分实际的协作编辑场景本来就有中心服务端,这样的实现其实比传统算法更实用不过也有声音提醒,这种做法虽然省去了复杂算法,但在某些客户端交互体验上,仍然可能会碰到需要细致处理的同步边界情况
近期有开发者发现,将 MCP 等工具的输出直接传给大语言模型进行下一步决策虽然方便,但在处理真实大体量数据时,这种做法很快就会遇到瓶颈比如实际使用 Linear 和 Intercom 的 MCP 服务时,服务器会返回非常大的 JSON 数据包有 11 个项目里的 50 个 issue 就有 7 万多个字符,模型需要完整接收这些庞大的数据内容,然后再操作,既费时又费用高而且还容易遗漏或处理错误部分字段
事实上 如果只是在结构化数据上做排序筛选等操作 把这些功能用代码编排出来会更简单有效比如直接用代码去处理和调用相关接口 变量本身就可以当做模型的记忆而且做函数的串联和依赖变得更加明确和可控现在的问题慢慢转向了 mcp 客户端的设计 比如如何在保证安全的前提下让 ai 能访问用户数据和接口以及怎么设计计能长时间运行又能高效管理状态的执行环境
评论区有开发者指出,LLM 排列调度结构化数据其实远没有传统代码高效,也有人认为工具链的组合很重要,复杂的任务要用确定性方法,复杂场景在补 LLM 的能力。还有一部分人关注到现在各种 agent 系统虽然有创新,但带来的系统复杂性和回滚等问题也值得重视。
Debian 之所以会对所收录的软件做出一些修改,主要是因为它有一套严格的政策需要遵守,比如要求系统配置文件统一放在 ETC 目录,文档放在 USR SERDOC 目录,甚至不同软件的可执行文件如果名字相同,也要通过特定方法区分。此外,Debian 还得保证软件之间的兼容性,比如可能需要更改 UNIX 预套接字的位置,或者调整采用的用户账户。
对于带有呼叫回家功能或绕过 Debian 包管理系统进行自我更新的软件,Debian 会直接删除相关代码,这样既保护了用户隐私,也减少了安全风险。还有一种情况是,Debian 会提前修复上游还没解决的 bug,或者将新补定反向移植到老版本里,这主要是为了让用户获得更稳定安全的体验。
出于法律和开源协议的考虑,如果软件中有一些部分不被认为是自有软件,比如含有受限制手册或者特殊授权的 logo,Debian 就会把这些内容去除,必要时单独打包到 NumFree 仓库。另外,如果上游作者没有提供手册页,Debian 经常会自己补充。
评论区有网友支持 Debian 删除呼叫回家功能,觉得这样更加安全,也有网友抱怨 Debian 对源码的修改有时会引发兼容性问题,甚至导致原本正常的软件出错。还有网友讨论类似的做法其实在 OpenBSD 以及其他发行版中也常见,不只是 Debian 的独特现象。
感谢收听今天的黑客新闻中文日报。我们希望这些热点科技动态和独家解读帮您洞悉 AI 与创新的潮流前沿。如果喜欢我们的内容,欢迎订阅并分享给身边的朋友,让我们一起探索技术世界的每一次变革。祝您有个高效而愉快的一天,我们明天再见。