We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 2025-06-05 | “AI” 神话破灭?Builder.ai 曝出背后全靠人工,微软数亿美元蒸发

2025-06-05 | “AI” 神话破灭?Builder.ai 曝出背后全靠人工,微软数亿美元蒸发

2025/6/4
logo of podcast Hacker News

Hacker News

AI Chapters Transcript
Chapters
一篇关于使用 Transformer 模型预测酶功能的论文发表在 Nature Communications 上,但随后被发现存在大量错误。这引发了关于 AI 行业内对定量指标的过度关注以及事实核查缺失的讨论。
  • Transformer 模型预测酶功能论文发表在 Nature Communications 上
  • 模型预测结果存在大量错误,甚至被扩散进权威数据库
  • AI 行业内对定量指标的过度关注以及事实核查缺失

Shownotes Transcript

大家好 欢迎来到黑客新闻中文日报

我是你的主持人今天的节目里我们将带你了解一项关于 Transformer 模型预测没功能的重磅 AI 论文这篇论文虽然登上了顶刊但却在社区里引发了真假难辨的争议除此之外安卓手机近期爆出互联网巨头利用本地端口进行隐蔽用户追踪的新手法挑战了我们对隐私保护的想象还有英国 AI 创业明星 BuilderAI 突然崩盘背后到底是 AI 泡沫还是财务迷雾

让我们一起深入背后的科技世界看清最新的技术热点与思考最近有一篇关于用 Transformer 这种深度学习模型预测酶的功能的论文发表在 Nature Communication 上这篇论文用 2200 万条酶的数据集进行训练然后尝试预测了 450 个未知酶的功能结果还专门选了其中三个用实验去验证得到了准确的结果这样的成果不仅被顶刊刊登还获得了很高的关注度和浏览量

不过有些研究者仔细检查了这些成果发现模型的许多新预测其实要么本来在数据库里就已经有了要么结果十分可疑比如 YGHQ 这个基因被预测成能合成麦克赛奥但一抠来根本不合成这种物质还有一些基因被分配了重复又不现实的特殊功能最多有的一个功能在不同基因里出现了 12 次更有意思的是有的功能其实已经被过去的研究证明并不成立但这篇论文照样给出了错误的预测

后续有科学家花了不少功夫对这些结果做了深度纠错但他们的稿子发到 Bioerxiv 上根本没有原论文受到那么多关注这其实反映出现在很多 AI 相关研究的一个问题大家更在意模型有多强结果有多炫但真正做事实核查发现并更正数据和结论错误的工作反而容易被忽视很多网友也评论说现在 AI 圈子里更重视炒作和噱头真正深入严谨的工作得不到应有的回报

还有人指出,AI 模型常常在没遇到过的数据或问题上表现很差,却依然很自信地给出错的答案。有人调侃说,他们现在做实际项目会选择从大模型里拿 embedding,然后用传统的分类器模型,反而更靠谱更省事。最近有研究团队披露,Meta 和 Yandex 这些主流互联网公司在 Android 手机上利用本地端口实现隐蔽的网页到应用跟踪。

这项方法主要通过像 Facebook、Instagram 和 Yandex Maps 这些原生 App 在后台监听特定本地端口,把网页上 MetaPixel 或 Yandex Metrica 脚本收集到的信息,直接传送给这些 App。即使用户在无痕模式或者清除浏览数据后,这种方式仍然能将用户在浏览器里的匿名身份和 App 里的真实身份关联起来,大大绕过了安卓系统和浏览器原有的隐私、保护机制。

研究还证实,这项技术被大量网站集成,比如 Gimeta Pixel 一项就在超过 15000 个美欧网站上部署,还有成千上万个网站在用户没有任何同意的情况下也会自动尝试这种本地通信。更让人担忧的是,如果有恶意 App 也监听这些端口,用户的网页浏览历史甚至可能被第三方劫持或窃取。

研究团队发布报告后 Meta 已经在 6 月初暂停了部分相关脚本的推送但业内普遍认为目前安卓的本地端口策略和隐私机制依然缺乏有效防护评论区里有网友感叹现在的跟踪技术已经到了黑科技级别普通用户几乎无从防范也有人提出这正是为什么不应该轻易安装大公司的 App 如果实在要用尽量用网页版更安全还有网友建议相关监管和处罚措施得跟上否则用户隐私永远没有保障

Go 官方团队最近就错误处理的语法支持发表了一篇详细的博客文章多年来,Go 社区一直吐槽 Error,handling 过于冗长,尤其是反复写 FR,等于 Near 这样的代码段其实早从 2018 年开始,Go 团队就尝试通过 Check 和 Handle 等方案来改善后来又提出了 Try 和简化写法,包括在复制语句加一个问号,像 Restly 的某些写法但每次新提案都引发了大量讨论,最终都因为社区意见太分散没法推进

沟团队也承认,哪怕现在出现了一个完美的解决办法,强行加入语法,最终也只是把一部分人哄好,但让另一部分人不开心。如今沟已有犯刑这样的例子,但错误处理的问题比较特殊,涉及到几乎每个项目,不好平滑过度。团队经过多年反复尝试后,目前决定暂停在语法层面改动 error handling,也就是说,现有的标准 if error 等于 Near 检查写法暂时不会改变。

不过,社区还是会继续探索用工具、库和 IDE 自动补全等方式来简化冗余评论区也有不少开发者提到,虽然勾错误处理写起来啰嗦,但这种强制显示处理能提高代码的可读性和可维护性也有人提出像 Rust 或 Erlang 这种更灵活的 result 或 topo 风格会更优雅,但多数人都觉得短期内勾的现状还是比较务实

还有网友调侃,真正难的不是多写几行代码,而是要达成所有人都满意的共识。Merlin Bird ID 是一款可以帮你识别身边鸟类的免费应用,支持照片和声音两种方式。只需要用手机对着唱歌的小鸟按下录音,Sound ID 功能就能离线分析并给出可能的鸟类名单,还能和数据库里的叫声进行比对。

目前已经支持美国、加拿大、欧洲以及中南美和印度部分常见鸟类未来会继续增加更多物种和地区

如果你现场拍了鸟的照片,也可以用 Photo ID 离线识别,操作很方便。Merlin 还支持答题式识别,只要按照提示填写三项基本信息,系统会帮你筛选备选名单,非常适合初学者或者带孩子一起用。每当你识别出新鸟,还可以一键加入自己的数字鸟类收藏册,方便记录和回顾。

网友评论区里,有人觉得这个应用就像真实世界里的 Pokemon Go,也有人表示用 Sound ID 功能认识了好多新鸟,每次户外活动体验都不一样了。还有用户反馈应用的录音识别准确,但界面偶尔有点小问题,比如按钮偶尔不好用,不影响大体体验。曾经被微软支持,估值高达 15 亿美元的英国 AI 创业公司 BuilderEye,如今申请破产保护。

根据报道,公司最大贷款方 Viola Credit 直接划走 3700 万美元,导致它在包括英国、美国、阿联酋、新加坡和印度在内的 5 个国家的业务停摆。

Builder AI 原本承诺只需要很少甚至不用写代码就能帮助企业快速搭建定制应用吸引了包括 Catar Investment Authority 在内的多家知名机构投资融资总额超过 4.5 亿美元不过公司财务状况始终引发质疑创始人更换财源大面积发生今年还承认过去两年核心销售数据虚高并请了外部审计机构介入调查

最受关注的是,有知情人士曝光,Builder AI 实际上并没有真正部署 AI,技术背后是一支位于印度规模达到 700 人的开发团队负责处理客户需求,对外却声称这些都是 AI 完成的自动化。前员工和部分业内人士认为,所谓 AI 能力只是表象,公司用真人冒充 AI 写代码,甚至存在向投资人虚报收入的情况。

最终 随着资金链断裂 公司无力归还贷款 业务全面瘫痪 投资机构也出现重大损失目前相关监管机构已经开始调查 BuilderEye 的营销合规性 这起事件也让外界对 AI 赛道的透明度和真实性提出质疑

有网友评论说,其实归根到底还是传统的财务造假,只不过这次披上了 AI 的外衣,也有人好奇公司这些年巨额资金到底花到了哪里还有人认为如今 AI 工具都这么普及,靠这样的套路混下去早晚会出问题软件开发中,传统的 DIFF 文件格式广泛,用于展示两份文本文件间的改动,比如插入或删除的型,以及一些基本的文件信息

但现有的 Unified Diff 格式存在不少短板,比如缺乏统一的编码,原数据和二进制补丁的标准写法,也没有办法在一个 Diff 文件里表示多个提交。这给很多工具带来了困扰,比如代码审查和补丁工具很难自动、准确地解析各种格式的 Diff 文件,尤其是在需要支持多个版本控制系统的时候。

为了解决这些问题,DIFx 作为一种可扩展的新一代 DIF 格式提出,不但完全兼容当前工具,还便于未来的扩展,而且数据结构也更清晰。DIFx 允许你在一个文件中保存丰富的原数据,支持多提交,兼容二进制内容,并且能明确指定文本编码,工具可以通过统一的标准轻松读取和写入。

评论区不少网友觉得 DiffX 的格式复杂,嵌套层级太多,容易导致解析出错,也有网友认为如果只统一原数据格式,直接用 JSON 会更简单。同时有人质疑,现有的 Diff 工具其实能满足大多数需求,引入新格式是否会带来更多兼容性和可维护性的问题。

Precious Plastic 这个开源塑料回收项目正面临很大的危机过去他们在全球 56 个国家支持了 1100 多个回收组织总共回收了 140 万公斤塑料也通过社区志愿者创造了 300 多万美元收入但他现在遇到的核心问题是项目团队人数极少收入模式一直无法自己自组最近一次还遇到重大法律纠纷加上远程办公没有长期稳定的办公场地都让他们的运作雪上加霜

最关键的是,他们虽然收到了 10 万欧元的捐款,但全都直接发给了社区成员做项目开发,自身组织反而没有留下维持的资金。目前 Precious Plastic 仅能再坚持半年,如果没有新的资金和支持,团队就有可能解散。

评论区里有网友质疑项目管理层自己造成了一些困境,对缺少清晰的路线图和商业模式提出批评,也有人担心 Precious Plastic 现在求助的诚意不足,呼吁团队能交棒给更善于经营的人来拯救整个项目。还有人反思说,回收本身技术门槛高,由非盈利小团队解决全球塑料问题很难,更需要行业整体的改变。

研究发现,Meta 和 Yandex 利用安卓系统上本地回环端口做出了一种新型的用户追踪方式,影响到数十亿安卓用户。像 Facebook、Instagram、Yandex 地图和浏览器等原生应用,会在后台悄悄监听特定的本地端口。

只要用户在手机浏览器上访问了嵌入有 MetaPixel 或 Yandex Magica 脚本的网站,这些脚本就会通过本地 Socket 将用户的浏览器原数据,Cookie,甚至部分身份信息,直接发送到这些原生应用。

由于原生应用可以获取设备 ID 以及账号信息,这套机制会把原本网络端的匿名 cookie 和用户真实身份关联起来无论你是否清除了 cookie,用了无痕浏览,或者设置了更严格的权限管控,都能够被识别,等于是绕过了安卓和浏览器自带的隐私保护更严重的是,如果有恶意应用也监听这些端口,甚至能间接获取到你的浏览历史

Meta 这套追踪方式核心是 Facebook Pixel 通过 WebRTC 技术在你访问含有该脚本的网站时把下话线 FBP 这个分析用 Cookie 发送到手机上监听端口的 Facebook 或 Instagram 应用再将这些数据上传到服务器与账号绑定 Yandex 方面则是在 2017 年就开始用本地 HTTP 请求方式将 ID 和参数在浏览器与原生应用之间传递并通过加密方式发送到自家服务器

根据检测,类似的代码被部署在全球数万甚至数十万主流网站上,用户在完全不知情的情况下就完成了整个数据传递和桥接。值得注意的是,网站主和普通用户基本都不知道这种机制的存在,Meta 和 Yandex 在公开文档里并未披露。

社区网友普遍觉得这种隐蔽追踪方式突破了常规的隐私防护线部分人建议加强安卓端口管理也有网友分享了使用 Ublock Origin 等插件屏蔽相关流量的经验但也有人担心目前的防御措施其实还远远不够一项发表于 PNAS 的大规模研究通过分析近 2 万人的脑部影像数据发现大脑的老化过程并不是线性的而是在中年阶段也就是 40 到 60 岁之间会出现一个变化加速的关键窗口

这个时候,大脑网络结构的稳定性开始下降,并且与身体的胰岛素抵抗同步。研究进一步指出,大脑中受胰岛素影响的葡萄糖转运蛋白个 4 以及与脂质运输相关的 Apo 基因对大脑衰老起到关键作用。

值得注意的是,研究团队尝试给 101 名受试者补充外源性的酮体来替代葡萄糖作为能源,实验结果显示,这种方式能在 40 到 60 岁这个阶段显著提升大脑网络的稳定性,但对 60 岁之后的人群效果大幅减弱,也就是说酮体干预只有在大脑神经元还未严重受损时才能起作用。这一发现提醒我们,对于年龄相关的认知衰退,代谢相关的早期干预非常关键。

评论区有网友分享了他们采用生酮或补充酮体后精神状态变好的个人经历也有人指出长期生酮饮食的副作用和维持的难度还有不少人对研究具体用药方式和长期效果表示关注并提出质疑

感谢收听今天的黑客新闻中文日报无论是 AI 突破背后的质疑还是日常应用中潜藏的数据风险每一条科技新闻都为我们带来了新的启发如果你喜欢我们的内容欢迎订阅并分享给你的朋友我们明天同一时间再见祝你一天好心情