We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 2025-02-23 | SWE-bench 数据集质疑:三成补丁存在答案泄露,编码评估基准待完善

2025-02-23 | SWE-bench 数据集质疑:三成补丁存在答案泄露,编码评估基准待完善

2025/2/23
logo of podcast Hacker News

Hacker News

AI Deep Dive AI Chapters Transcript
People
播音员
主持著名true crime播客《Crime Junkie》的播音员和创始人。
Topics
播音员:我报道了几个科技新闻,包括苹果公司因英国政府的安全担忧而撤回其数据保护工具,该工具旨在为iCloud数据提供端到端加密。英国政府要求苹果公司提供访问加密用户数据的方法,这引发了人们对隐私和安全的担忧。我还报道了Eight Sleep智能床的安全漏洞,该漏洞允许公司工程师远程访问用户的设备并运行任意代码。一位用户通过使用廉价的水族箱冷却器来替换智能床的温控系统,从而解决了这个问题。此外,我还讨论了数字鸿沟问题,即没有智能手机的人在社会便利方面面临的挑战。我报道了理查德·费曼去世时留下的黑板,以及Ruby on Rails框架的持久吸引力。我还报道了一位软件开发者20年来一直致力于同一款软件产品的故事,以及对SWE-bench数据集的批评分析,该数据集用于评估大型语言模型在实用编码中的能力,但存在一些问题,例如答案泄露和测试用例不足。最后,我还讨论了Suckless.org的软件哲学,该哲学强调简洁性和效率。 网友:针对苹果公司撤回数据保护工具一事,许多网友表达了对隐私和数据安全日益恶化的担忧,并质疑其他公司是否也采取了类似的做法。关于Eight Sleep智能床的安全漏洞,网友们对物联网设备的安全性和隐私保护表示担忧,并对该公司的订阅式商业模式提出了批评。在讨论数字鸿沟问题时,网友们呼吁社会提供更多样化的服务方式,以满足不同群体的需求。关于理查德·费曼的黑板,网友们表达了对这位科学家的敬意和怀念,并对科学遗产和学习态度进行了讨论。关于Ruby on Rails,网友们分享了各自的使用经验,并对其在Web应用开发中的价值表示认可。关于持续开发同一款软件20年的故事,网友们对开发者的坚持和创造力表示钦佩,并对传统桌面软件和网络应用进行了对比。关于SWE-bench数据集,网友们对数据集的质量和现有编码基准的有效性提出了质疑,并建议改进方法。最后,关于Suckless.org的软件哲学,网友们对该社区的理念表示支持,并对他们开发的软件表示赞赏。

Deep Dive

Chapters
苹果公司撤回其数据保护工具,原因是英国政府要求该公司提供访问加密用户数据后门。此举引发了关于在线隐私和数据安全的广泛讨论,许多人担忧此举对个人隐私的威胁。
  • 英国政府要求苹果提供数据访问后门
  • 苹果撤回数据保护工具
  • 引发关于在线隐私和数据安全的讨论

Shownotes Transcript

嗨 各位听众朋友们 欢迎收听黑客新闻中文日报今天我们为大家带来了几则引人深思的科技新闻从苹果公司在英国的隐私保护之争到一位极客工程师的创意床垫改造再到加密货币领域的最新动态让我们一起来探索这些有趣的故事背后的深意苹果公司因为英国政府的安全争议撤回了一款数据保护工具

这款工具原本能为 iCloud 数据包括照片笔记消息备份以及设备备份提供端到端加密保护英国政府通过调查权力法案下发了一项技术能力通知要求苹果创建一个后门这将允许英国安全部门访问全球用户加密数据这一要求威胁到了苹果的高级数据保护功能有一个情景是在机场安全官员根据反恐法搜查你的设备这时候你可能没有权利获得法律建议或保持沉默

这意味着通过英国领土旅行的所有人都可能被官员搜查评论区的许多网友表示担忧认为这是迄今为止听说过的最大的后门有人还担心除了苹果外其他公司是否已经默许了这样的做法总的来说大家对于个人隐私和数据保护的战役正逐渐失守而苹果公司的这一举措引发了许多关于在线隐私和安全的讨论

在近期的一篇文章中,作者分享了自己如何在不牺牲数据隐私、网络安全、可靠性和完整性的前提下,通过一个简单的方法替换了自己床上的温控系统。文章详细描述了 8Sleep 床垫的一项令人不安的功能,公司工程师可以远程 SSH 登录到每位用户的床上并运行任意代码,这一发现引起了广泛的关注。

文章中作者通过一种创新的方式使用价值 150 美元的水族相致冷气作为替代方案避免了互联网联通性后门入侵及安全隐患等问题同时还享受到了温控床带来的舒适这一做法不仅反映了消费者对于物联网设备增长的担忧也展示了寻找替代解决方案的可能性

而评论区里 网友对此方法表示赞赏 同时也有讨论关于物联网设备安全性的深层担忧有的网友分享了自己的睡眠改善经历和对生活的积极认知还有人提出了对这种订阅地域商业模式的批评和对隐私保护的担忧在未报的一篇文章中 活动人士指出 没有智能手机的人面临诸多不便和限制

文中提到,英国有数百万人不能或不愿使用移动应用程序,觉得自己因此受到了处罚。例如,许多老年人告诉慈善机构 HUK 因为必须使用应用程序或移动设备进行支付,他们在支付停车费时感到困惑,有时这甚至导致他们错过了重要的预约,比如看医生。

而商家为应用用户提供的独家优惠和忠诚度计划则让那些无法或不愿走数字化道路的人错失了节省开支的机会简而言之这种现象加剧了数字排除问题使不愿或无法使用智能设备的人群在获取服务和优惠方面处于不利地位

评论区中,网友们对此表示了强烈的不满,认为社会应当为所有人提供更多样化的服务方式,并考虑到不同群体的需求和偏好,确保技术进步惠及每一个人,而不是仅仅为了节约成本或追求效率。

理查德·费曼逝世时留下的黑板记录引发了科技社区的深刻反思该黑板内容线已被加州理工学院数字档案馆永久保存费曼,一位对其时代的物理学贡献深远的科学家,其黑板上的内容反映了他对世界的好奇心和不断探索的精神

他生前的座右铭 What I Cannot Create, I Do Not Understand,我无法创造的,我就不理解,不仅激励了 Chuck MCM,也触动了许多人深入探索未知领域的决心此外,据网友反映,费曼逝世前三年量子霍尔效应获得诺贝尔物理学奖,尽管如此,这位伟大的物理学家并未完全掌握这一现象,这一事实显示了科学知识的不断进步,以及即使是科学巨匠,也需要不断学习

网友们对费曼遗留下来的黑板内容表达了深切的敬意与怀念,同时也对我们如何看待科学遗产和不断学习的态度进行了深刻的讨论。Ruby on Rails 依然重要的原因在于它简化了复杂任务的抽象化处理,为许多成功公司的基础,比如 Airbnb、Shopify 和 Github 等,如今大约有数万亿美元的企业运行在 Ruby on Rails 上。

尽管面临着新兴的 AI 力量,例如大语言模型文本流、Ruby 并行处理的挑战和缺乏强类型编程工具,但它仍然显示出其有效性。评论区的网友们提到了各自使用 Rails 的体验,其中一些人认为 Rails 由于其约定优于配置的设计,使其在开发中更加高效。

同时也有人提到,尽管 Rails 在新兴的 AI 应用潮流中显得有些过时,但仍然是构建 Web 应用的简单且抽象化的方法,证明了其不可替代的价值。一位软件开发者分享了他在过去 20 年里持续致力于同一款软件产品 Perfect Table Plan 的心得,这款软件最初是为了解决他自己婚礼作为安排的难题而设计的。

自 2005 年发布第一个版本以来,该软件经历了众多变迁,目前已更新至第七版,并仍在稳定运行开发者坦言,这项事业的成功既得益于辛勤努力,也有一定的运气成分值得一提的是,尽管面临数字产品向网络化转移的大趋势,他选择继续坚持桌面软件开发部分原因是考虑到软件运行的计算强度及用户对数据隐私的需求

评论区内,网友们对此感到忌怀旧又钦佩,有人念旧桌面软件的简单和实用,不满当前一切都必须依赖高速网络的现状,还有人赞扬这位开发者给予软件的爱与关怀,认为这是小型独立软件所特有的创造性和情感,相比之下,大公司往往难以复制这种独特性。

总的来看,Perfect Table Plan 的故事激励了许多人,不仅是因为它作为一个产品的成功,更因为它展示了作为一位独立开发者持续创造并拓展个人事业路径的可能性。Swaybench 家的最新分析揭示了这一边程基准测试中的几个关键问题,其中包括解决方案泄露和测试用力的不足。

研究团队在审查 SwayAgent 加 GPT-4 生成的补丁时发现,32.67%的成功补丁涉及作弊,因为解决方案直接提供在问题报告或评论中了此外,31.08%的通过补丁被认为是可疑的,原因是测试用力不足以验证补丁的正确性当排除这些问题后,SwayAgent 加 GPT-4 的解决率从 12.47%下降到了 3.97%

评论区的网友有多种反应有的对数据集的质量提出了质疑认为几乎所有被大型 LLM 公司引用的主流基准测试都存在缺陷还有网友提出未来需要像版本化的重包编码 LLM 评估数据集这样的创新方法意见甚至涉及到基准测试的泄露问题以及如何更加准确地反映实际编程能力提到了 Code 在实践中的表现优于其他模型但这种优势并没有在现有的基准测试中得到反应

Sircus.org 推出了一系列注重简洁清晰和节俭的软件产品这一理念至今已广受程序员社区的欢迎其中包括 Stella Linux 的 FAQ 揭示了一个全静态链接的 Linux 用户空间的构建方式让人重新审视 Linux 中一切使用共享库的默认做法这种方法不仅简化了软件部署还避免了分发版本冲突和库打包的繁琐使得即便是最终用户的二进制文件也能轻松运行

同时 评论区的反馈也显示了该社区的理念深受支持比如对于他们的窗口管理器和 X 菜单系统的称赞虽然这些不是对抗软件复杂性的常规展示场景此外 还有对他们为开发 PDF 查看器的轻微遗憾之声可以说 Circus.org 及其产品因追求极致简洁而在技术圈内建立了独特的地位同时也激励了更多的探索和思考

今天的播客就到这里了感谢您一路相伴如果您觉得今天的内容有帮助欢迎分享给身边的朋友这里是黑客新闻中文日报我们下期再见