We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

2025-06-17 | Meta Llama 3.1 令人吃惊地“记住”了 42% 哈利波特第一部，这背后意味着什么？

2025/6/17

Hacker News

在90年代中后期，Netscape和Microsoft的浏览器大战背景下，Netscape开发了SSL协议。由于安全漏洞，SSL2版本实际投入使用，但存在问题。Microsoft基于SSL2开发了PCT协议，只兼容IE和IIS。Netscape不希望Microsoft掌握标准话语权，开发了SSL 3.0。业界不希望协议分叉，最终IETF接手协议标准化。为了避免协议被某家公司主导，SSL 3.0经过调整后更名为TLS 1.0。有网友评论说，从SSL到TLS不仅仅是改名，标准化之后TLS在加密算法和功能扩展上做了大量创新和改进。也有人觉得大家最在意HTTPS能否正常使用，底层实现并不重要。还有人回忆自己多年未能区分SSL和TLS，直到了解这段历史才明白。

Deep Dive

Chapters

Meta 的 Llama 3.1 大模型展现出惊人的“记忆力”，能够复现《哈利波特》等热门书籍的 42% 内容。这引发了 AI 记忆能力和版权争议的讨论。

Llama 3.1 能复现《哈利波特》42% 的 50 字片段
复现准确率超过 50%
引发 AI 侵权争议

Shownotes Transcript

大家好,欢迎收听黑客新闻中文日报今天我们首先来聊聊大语言模型最新的研究发现 Meta 的 Lama 3.1 能准确附现热门书籍禁办内容这不仅令 AI 的记忆力突破以往也让版权争议变得前所未有的复杂

接下来我们聚焦 AI 写作工具对人脑的真实影响一项前沿实验用脑电图揭示长期依赖大模型辅助可能会造成思维能力的显著下滑这对于未来的教育和认知方式提出了新挑战还有 SSL 到 TLS 的发展历程背后其实藏着浏览器大战和标准之争协议命名的改变远不只是换个标签更代表着互联网基础安全的曲折演进精彩内容带你透视科技新浪潮一起深入探索

在 90 年代中后期,当时 Netscape 和 Microsoft 之间的浏览器大战非常激烈 SSL 协议就是在这样的背景下由 Netscape 开发出来的最早的 SSL 版本因为安全漏洞从未真正发布实际投入使用的是 SSL2 版本但它本身也存在一些加密和实际应用的问题 Microsoft 在竞争中没有直接使用 SSL2 而是基于它开发了名为 PCT 的协议,只兼容 IE 和 IIS

Netscape 也不希望让 Microsoft 掌握标准的话语权,所以又搞了一个全新版本 SSL 3.0,变化很大。业界其实也不希望协议分叉得太混乱,所以当时有一些公司和代表人联系起来,撮合了 Netscape 和 Microsoft 的工程师们坐下来谈判,最后大家同意让 IETF 这个组织来接手协议的标准化过程。

为了体现协议不是某一家公司说了算 SSL 3.0 做了一些调整名字也正式改成了 TLS 1.0 其实本质上就是 SSL 3.1 回头看当时走了这一步现在看来挺有意思

评论区有网友补充说,从 SSL 到 TLS 并不只是换了个名字,标准化之后 TLS 后续在加密算法,兼容性和功能扩展上都做了大量的创新和改进。还有人觉得其实大家工作中最在意的还是 HTTPS 能不能正常用,具体底层怎么实现反而没那么重要。也有网友回忆自己,很多年都没能真正区分 SSL 和 TLS,直到看到这段历史才恍然大悟。

组建 Internet Resiliency Club 其实就是召集一群互联网专业人士利用便宜的 Lora 无线电和开源的 MeshTastic 文本消息软件在没有中心化基础设施的情况下实现几公里范围内的点对点通讯文章作者是在阿姆斯特丹开始推动这类志愿者组织的他在介绍欧洲因为地缘政治战争和气候等因素未来可能会面临更频繁更严重的通讯中断问题所以强调提前自救的重要性

相比于传统的业余无线电,Lora 方案更便宜,操作更简单,功耗更低,不需要执照,可以用普通充电宝甚至太阳能供电,方便大家组队实践。搭建这样的应急网络其实很简单,只要身边能找到几位同行,大家购买 Lora 电台,安装 MeshTastic,约定频道,然后定期线下聚会,练习发消息。

网友们在评论区也补充了实践细节,有人说 MeshTastic 虽然适合发消息,但在无网络环境下初次部署有点复杂,有的参数和资料需要连网下载,而且大规模使用时稳定性一般。还有人认为用二手老路由器搭建公共 WiFi Mesh 其实更实用,还有建议关注 MeshCore 之类的新项目,并指出 Lore 的带宽很低,别指望能传图片或语音,只适合应急文本消息。

一位开发者分享了自己在监狱服刑期间依靠远程工作的机会最终成为特首的一名全职软件工程师的励志经历

他因为过去与毒品相关的生活选择而入狱,但在狱中参加了缅因州城教局的远程工作项目,有机会接触计算机和有线的网络资源,重新点燃了对编程的热情。通过大量自学和在开源社区的积极贡献,他从未监狱教育项目开发软件做到带领团队,后来被 Turso 录用,参与到项目 Limbo 再造 SQLite 的工作中。

虽然目前刑期还未结束,但他表示会把这段时间继续用在编程和数据库领域的深度学习上,希望为自己和他人证明努力和机会,能够改变人生。评论区里不少人觉得给服刑人员提供真实,能延续的工作机会特别有价值,有网友很关心如何保障薪酬与劳动权益避免被剥削,也有人提到相比普通人,这样封闭的环境下,反而更专注高效地敲代码。

上世纪 70 年代以前,儿童一旦被诊断为白血病,大多数都会在几年之内失去生命,但过去 50 年来,生存率发生了翻天覆地的变化,现在在北美和欧洲,超过八成的患人能够活过五年甚至更久。白血病是儿童中最常见的癌症,典型的症状包括易疲劳,感染频发,皮肤苍白和容易出血,这些是因为异常白细胞在骨髓和血液里无限增殖,把健康细胞都挤掉了。

治疗上的突破得益于持续的科学进展包括多药联合化疗针对不同风险分组量身定制的方案以及分子和遗传检测的快速发展儿童肿瘤协作组等大型联盟让全球各地的医生能共享数据一起设计更有效的临床试验这极大的提高了标准化治疗提高了治愈率虽然过程艰难化疗副作用不小但随着支持性治疗和针对性药物的普及长期健康状况得到显著提升

评论区里不少人分享了亲身经历,有的家长参与临床研究,孩子早期得到诊断并康复,也有人感叹治疗过程的辛苦甚至家庭关系变化,不少人也强调全球范围内治疗资源分布还很不均衡,希望未来所有患病孩子都能获得平等救治。

一项以 ChatGPT 为辅助写作的认知研究刚刚发布,研究团队把参与者分为三组,分别使用大语言模型,搜索引擎和纯粹靠自己头脑来写作,并通过脑电图检测写作时的认知负荷。结果发现,完全靠自己思考写作的人,大脑连接最活跃也最广泛,搜索引擎组次之。而依赖大语言模型的参与者,大脑活动最弱,表现出了明显的思考降级。

当原本依赖 AI 的人切换回纯脑写作时,他们的大脑活跃度依然不足,反过来用 AI 的人,大脑还能保持部分较高的回忆和活化能力,但整体来看人机混合的方式还是弱于单纯靠脑。

除此之外 AI 辅助组对自己写的文章归属感也比其他组要低经常无法准确复述自己的观点研究显示长期依赖大语言模型不仅会影响写作表现还可能带来持续的认知影响对学习方式和教育产生深远影响评论区不少网友表示这其实和用 GPS 导航导致空间记忆变差类似也有人担心如果这种趋势继续下去人们可能会逐步丧失深入思考和综合推理的能力

当然,有的网友觉得用 AI 并不是坏事,反而可以把精力转向更高阶的任务,但前提是要有意识地去平衡使用,提高主观参与感。英国著名的自然纪录片《大师 David Attenborough》今年已经 99 岁了,他在最新出版的书中回忆了自己童年时在莱斯特附近石灰岩采石场里,想象热带泄湖的情景。那时通过简石化石,他对海洋产生了强烈的好奇心。

一生中,他见证了百年来人类对于海洋世界认知的巨大飞跃,也看到了技术给生态纪录片拍摄带来的难以置信的进步。但他坦言,人类对海洋造成的影响已经非常深远,未来一百年甚至可能会是大规模灭绝和生态复苏的分水岭。不过他也表达了乐观态度,认为红树林和海带森林能恢复,鲸鱼也能归来,过去的努力已经证明了大自然的自愈能力。

他提到,关键在于我们如何选择年轻一代有机会见证全新的海洋生态系统和人类与自然关系的转变。

虽然自己看不到这个故事的结局,但他坚信人们对自然的理解和热爱是希望的基础评论区不少网友都表示,Attenborough 近百岁仍然对海洋充满热情让人感动有人感叹人生无法见证所有故事结局,但正因为如此,我们要珍惜并努力修复还有人指出,正是像他这样的科学传播者,给了更多人希望和责任感

麻省理工学院的三位教授联合写的《Foundations of Computer Vision》这本书,现在已经可以在官方网站上免费阅读了。

全书主要讲解了计算机视觉领域的基础知识,既包含了图像处理和机器学习的内容,也考虑到了实际应用,写作风格偏向直观和实际,非常适合刚入门的本科生和研究生,也对有经验的工程师很有参考价值。原本作者只想写一本篇幅精炼的小册子,但由于计算机视觉发展太快,内容很容易就变多,结果书稿拖延了十几年才完成。

作者在前言里分享,这十多年间经历了人工智能的快速变革,尤其是 2012 年深度学习的突破,把许多最早期的理论和想法带回了主流,虽然新技术层出不穷,但历史上的研究方法仍然是现代系统的基础。全书板块分明,内容涵盖了从成像原理、信号处理、图像滤波、神经网络、生成模型、三维重建、场景理解到写作和做学术报告等话题,每个知识点都配有可视化的例子。

书中并没有去覆盖所有最新的应用案例,而是回归基础,强调基础概念和原理,有助于读者理清知识脉络。评论区里不少人表示很难相信这样一本高质量的教材能免费开放,网友也建议,想进一步深入还可以参考 Computer Vision Fifth Edition 这本书,大家普遍很感谢作者和出版方的开放精神。

Android 公共 API 里隐藏着不少有趣的彩蛋和幽默比如 Activity Manager 里的 IsUser a Monkey 这个方法如果你知道 Monkey 是 Android 的压力测试工具就会明白其实它用来判定当前用户操作是不是由 Monkey 自动化测试工具生成的目的是防止自动测试实物拨电话或者重置设备而且这个方法是在 Android 2.2 版本引入的

还有 UserManager 里的 IsUserAGoat 方法,最早在 Android 4.2 里只是个无害的笑话,后来甚至加入了识别 Goat Simulator 这款游戏是否安装,算是跟流行文化互动,不过到 Android 11 时,这个方法就出于隐私原因又变成了永远返回 False。更有意思的是,UserManager 还带有一个叫 Disallow 下话现犯的权限,字面意思就是可以禁止用户获得乐趣,其实是在某些场景下用来屏蔽比如版本彩蛋这些功能。

类似的幽默名字还出现在很多地方,比如 Chronometer 类的 Is the final count done? 方法,会直接打开 Europe 乐队的 The Final Count Done? 这首歌的 YouTube 页面,还有 Log WTF 日志方法 Adapter View Flipper, FYI will be advanced by host KTHX 这样的命名。甚至在早期 Android 系统里,还用数字常量模拟了星球大战里的死亡之星引力,或者在自定义布局里埋了 Blink 标签让空间闪烁。

评论区里有开发者分享,像 isuseragoat 和 isuseramonkey 这些 API,真的有人开发了专门的小应用来致敬这些笑话。还有网友感慨,虽然现在大公司代码越来越规范,但偶尔在原代码里发现这些彩蛋,还能感受到程序员的温度和幽默。也有很多人怀念互联网产品里那种轻松、随性的彩蛋文化,希望这种传统能继续。

一项由斯坦福·康奈尔和西弗吉尼亚大学的研究团队主导的论文测算,Meta 最新发布的大语言模型 Lama 3.170b 能够在一定程度上记住 Harry Potter and the Sorcerer's Stone 的内容,具体来说,它能准确复现全书 42%的片段,每次复现长度大约 50 个 token,而且每次做到这一点的概率有一半。

这份研究还把 Lama 3.1 和更早期 Lama 165B 做了对比,发现后者只能复现大约 4.4%,可见模型在训练过程中记忆能力明显增强。团队一共分析了 36 本书,Harry Potter 不是唯一被测试的热门作品,像 The Hobbit 和 1984 这样的畅销书,也更容易被 Lama 3.1 记住大段内容。

研究者还分析了模型到底是通过多少次接受训练记牢的这些内容推测 meta 可能多次用了包含这些书籍的 books 三数据集或是采集了网上的二次引用书评粉丝论坛或者学生读书报告等间接导致模型记忆力增加

目前来看,对于特别流行的书,模型记忆能力更强,而大众不熟悉的书则没那么容易被复现。最新的这一发现也让关于大模型和版权的争议变得更加复杂,因为模型不仅仅是在预测下一个词,而是能原文复现出几十个字词的段落。

社区讨论里有网友认为,这种记忆其实和人的背诵没太大不同,网上大量引用热门书的片段,模型学到了也正常,也有人觉得只要每次输出长度有限,这种属于合理引用难以构成侵权还有人提醒,如果不逐句纠正,大模型复现原文的准确度很快就会下降,很难拼凑出完整的书本内容英国电话交换机的历史,可以追溯到 1879 年伦敦建立第一座交换机,当时只有 8 个用户

从那以后,这些外观普通但作用极大的建筑遍布英国各地,大约有 5500 多座,连接着全国超 2.5 亿公里的电缆,把人们连接起来。随着新一代光纤技术崛起,微型芯片和超细的光纤线缆,只需要很小的空间就能完成以往大批笨重铜线和机械设备才能完成的任务。

现在,全英国只需要约 1000 个数字化的 Openreach Handover Points 来服务全国,这也意味着剩下的 4600 多个传统同线交换机会逐步退役。Openreach 计划在 2030 年前关闭第一批 103 个交换机,其余的大部分则会在 2030 年代逐步淘汰。站在历史的转折点上,这些曾经无名无姓的交换机建筑将会慢慢退出历史舞台。

评论区不少网友分享了小时候跟着父母参观交换机机房的回忆,也有人提到一些博物馆现在还保存着老电话和交换设备,方便大家体验老式通信的魅力还有网友感叹,电信基础设施虽然经常被忽视,但确实支撑了当代科技社会的底层感谢收听今天的黑客新闻中文日报

希望本期内容为你打开科技与社会变革的新视角如果喜欢我们的节目欢迎订阅并分享给更多朋友我们明天再见祝你有个充满好奇心的一天

2025-06-17 | Meta Llama 3.1 令人吃惊地“记住”了 42% 哈利波特第一部，这背后意味着什么？ 14:47 Share

Hacker News

Deep Dive

Shownotes Transcript

2025-06-17 | Meta Llama 3.1 令人吃惊地“记住”了 42% 哈利波特第一部，这背后意味着什么？