We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

2025-04-10 | Llama 4 被质疑“刷分”，Meta 否认作弊

2025/4/9

Hacker News

AI Deep Dive AI Chapters Transcript

People

Hacker News 用户

LM Arena

博

博客文章作者

新

新闻报道

Topics

用户 lucasfcosta：Apache ECharts 是一款优秀的数据可视化库，它解决了其他库的不足，例如默认美观、后端计算图表规格以及灵活支持传统 BI 工具。我测试过几乎所有可视化库，Apache ECharts 是最好的选择，它默认美观，允许在后端计算图表规格，并只发送到前端进行渲染，而且非常灵活，支持传统 BI 工具能够做的所有事情。用户 neomantra：go-echarts 在 Golang 中使用非常方便，它简化了图表声明，非常适合数据和 JavaScript 的混合使用。与 Golang 一起使用时，体验同样令人满意，Go-ECharts 让图表声明变得更加简单，很适合数据和 JavaScript 的奇妙混合使用。 Bracket City 开发者：我的拼图游戏《Bracket City》在 Hacker News 发布后六周内被《大西洋》授权发布，这得益于 Hacker News 社区的反馈和支持。六周前，我在黑客新闻上发布的拼图游戏《Bracket City》被 The Atlantic 许可了。这个游戏现在已在 The Atlantic 网站上线，并且继续免费提供给玩家，不需登录即可玩。我还在继续制作所有的谜题。感谢黑客新闻的用户们，你们是 Bracket City 得到的第一批真正的玩家群体，而不仅仅是我妈妈的朋友们。从我们签约到游戏上线，The Atlantic 团队仅用了两周的时间，过程非常迅速。黑客新闻社区的反馈对我非常宝贵，这些包括技术性和编辑方面的建议。对于游戏的未来发展，社区的意见一直是我不可或缺的参考。 Hacker News 用户：对《Bracket City》游戏的改进建议包括优化谜题线索的视觉辨识和改进键盘设计，以提升用户体验。评论从这款创新游戏的乐趣出发，提出了一些改进建议，比如关于谜题线索嵌套的视觉辨识优化，以及改进游戏键盘设计以减少打字错误，这些建议反映了玩家们对游戏体验的关注和期待。 Tailscale：我们完成了 1.6 亿美元的 C 轮融资，这将加速我们‘身份优先网络’理念的发展，简化复杂的 VPN 配置，并提升网络安全与私密性。 Tailscale 最近完成了由 Accel 领投的 1.6 亿美元 C 轮融资，此轮融资旨在加速其“identity-first networking”理念的发展，这一理念将身份而非 IP 地址置于安全连接的核心。参与融资的还有 CRV、Insight Partners、Heavybit 和 Uncork Capital 等知名投资机构。Tailscale 创立于 2019 年，旨在简化复杂的 VPN 配置，目前已有上百万用户使用其服务来连接和保护他们的混合式、远程和云端网络。 Mitch：在 AI 主导的公司中，被迫使用 ChatGPT 等工具来加速开发进程，这让人感到无趣，并且可能从长远来看会降低代码质量。在这次关于人工智能如何影响视频游戏开发者的探讨中，我们发现了一系列对于工作环境的负面影响，从批评管理曾过分依赖 AI 生成图像到表达对于用 AI 生成代码的担忧，这一现象正在让人们的热情和创意受到挑战。一位名为 Mitch 的软件工程师提到被迫使用 ChatGPT 来加速开发进程，让人感到非常无趣，而且从长远来看还可能会产生质量不如人工编写的代码的后果。 Cyc 项目参与者：Cyc 项目旨在构建一个拥有常识的人工智能系统，尽管经过数十年的努力，但最终未能达到预期目标。 Psyche 项目的历程充满了起起落落，从始至终都以一个宏大的目标构建一个拥有常识的人工智能系统为中心。通过编码人类的常识知识，Psyche 试图克服早期专家系统的脆弱性和知识获取的瓶颈问题。数十年来，这个项目吸引了无数批评和质疑，但同时也不断探索和尝试，不仅在技术上解决了百余个挑战，在商业应用方面也取得了一定的成就，尽管这些成就并没有达到最初对人工智能的宏伟预期。 PostgreSQL FTS 博客作者：PostgreSQL 内置全文搜索 (FTS) 的性能可以通过正确的配置和优化显著提升，常见的性能问题源于未优化的配置，而非搜索功能本身的限制。在最近的一篇博客文章中，我们深入探讨了 PostgreSQL 内置全文搜索 FTS 的性能，与常见的误解相反，如果正确设置，PostgreSQL 的 FTS 可以达到非常快的速度。通过对比 Neon 的博文中提到的 PG 下划线 Search 扩展性能和标准 PostgreSQL FTS 设置，文章揭示了标准 FTS 配置未经优化的基本问题，并展示了通过简单的配置和优化，标准 PostgreSQL FTS 的性能可以实现约 50 倍的提升。此外，博客还介绍了 VectorCordBM25，这是一个专为高性能相关性排名设计的 PostgreSQL 扩展。文章强调准确配置 tsvector 列和正确的使用 GIN 索引，关闭 Fast Update 是提升传统 FTS 性能的关键。 Meta：我们对 Llama 4 模型进行了优化，使其在基准测试中表现更好，但这并非作弊行为。 Meta 在 AI 基准测试中作弊被抓个正着，试图通过调整 Lama4 模型，让其看起来比竞争对手更出色。Meta 声称其新推出的中型模型 Mavic 能在广泛报告的基准测试中超越 GPT-4O 以及 Gemini 2.0 Flash，这一成就迅速让 Mavic 在 LM Arena 一个让人类比较不同系统输出并投票选出最佳结果的 AI 基准网站上名列前茅。然而 AI 研究人员在审查 Meta 的文档时发现了一些不寻常之处，Meta 在小字部分承认在 LM Arena 上测试的 Mavic 版本并非向公众提供的版本。根据 Meta 自己的材料，他们向 LM Arena 部署了一个特别为对话性优化的 Maverick 版本。就在模型发布后两天，LM Arena 在 Ack 上表示，Meta 对我们政策的解释与我们对模型提供商的期望不符，并宣布将更新其排行榜政策以加强对公平、可重复评估的承诺，以避免未来的混淆。 LM Arena：Meta 在我们的基准测试中违反了政策，我们将更新我们的排行榜政策以确保公平性。就在模型发布后两天，LM Arena 在 Ack 上表示，Meta 对我们政策的解释与我们对模型提供商的期望不符，并宣布将更新其排行榜政策以加强对公平、可重复评估的承诺，以避免未来的混淆。 WebKit：text-wrap: pretty 功能显著提升了网页排版的质量，解决了短行、坏排版和冗长连字符等问题。 WebKit 最新推出的 Text Wrap Pretty 功能，为网页上的排版带来了前所未有的精致度。这项新技术能够通过段落计算法解决长期存在的问题，比如避免段落末尾只有一个单词，改善不规则边缘俗称糟糕的折形，减少连续使用连字符等，从根本上提升了在线文字的可读性和美观度。根据最新的 Safari 技术预览版，这项技术可以跨越整段文本，防止短形出现，改善文本的整体外观，从而减少了对联字符的需求。 Hacker News 用户：对 text-wrap: pretty 功能的评价褒贬不一，一些开发者对可能导致的性能问题表示担忧。社区反馈表明大家对这一新功能评价褒贬不一，一些开发者对可能导致的性能问题表示担忧，而其他人则对于如何区别使用 Pretty 和 Balance 保持着好奇。尽管 Texture App Pretty 的引入意在提升网页文本的美感和可读性，但它也引发了关于网页性能和浏览器实现差异的讨论，显示出在追求更好网页排版的过程中，还有许多细节和挑战需要解决。 Hacker News 用户：传统搜索引擎和 LLM 各有优劣，人们正在探索如何结合使用这两种工具以获得最佳的信息检索效果。最近有个帖子在 Hacker News 引起了人们的广泛讨论，提问者想知道大家是否还在使用搜索引擎。这个问题吸引了众多网友分享他们的使用习惯以及对传统搜索引擎和大语言模型 LLM 的看法。有些人认为，当知道某个资源存在但不知道确切网址时，搜索引擎是寻找信息的最佳入口。然而，也有人表示，随着信息的准确性逐渐降低，他们开始偏爱传统的搜索引擎，而不是 LLM。比如，使用 LLM 时，很难判断信息的真实性，另外通过传统搜索引擎浏览大量文档可以带来额外的学习机会。尽管如此，还是有人尝试结合使用这两种工具以获得最佳结果，如 Cadre 与 LLM 的配合使用引起了一些网友的兴趣。文章“The Best Programmers I Know”的作者：成为优秀程序员需要深入理解技术、阅读官方文档，而不是仅仅依赖 Stack Overflow 或 LLM，以及持续学习。文章强调了成为优秀程序员的重要素质，如深入理解所使用的技术，阅读官方文档，而非仅仅依赖 Stack Overflow 或者 LLM，善于简化问题及持续学习的重要性等。 Hacker News 用户：成为优秀程序员有多种途径，包括自学和跨学科学习。网友们纷纷表达自己的观点，比如 Bob1029 提到在解决问题时避免猜测是至关重要的，GoboCC 则分享了他在学习新知识时猜的过程。Ehrlichit 讲述了一个没有计算机科学背景，但成为顶级开发者的故事，凸显了自学和跨学科学习的价值。最终，可以看到不论是新手还是资深开发者，不断学习和正确处理问题的能力对于变得更优秀至关重要。这些评论不仅展示了程序员社区的多样性，同时也凸显了成长为一名优秀程序员的多条路径。

Deep Dive

Chapters

Meta 被指控在 AI 基准测试中为其 Llama 4 模型作弊，引发业界广泛关注。分析指出 Meta 使用优化版本进行测试并夸大其性能，此举遭到批评，并导致 LMArena 更新了其排行榜政策。评论区讨论了 Meta 的行为动机以及对 AI 领域竞争的影响。

Meta 被指控在 AI 基准测试中为 Llama 4 模型作弊
使用优化版本进行测试，夸大性能
LMArena 更新排行榜政策以避免未来类似事件

Shownotes Transcript

Apache ECharts: 数据可视化的最佳选择

Apache ECharts 被誉为目前市场上最优秀的可视化库之一，其默认美观的设计和灵活的操作让它在众多可视化工具中脱颖而出。用户 lucasfcosta 在讨论中称赞它解决了其他库的许多不足，并指出 ECharts 是可扩展且符合 BI 工具的各种需求。同时，用户 neomantra 也提到了使用 go-echarts 的便利性，分享了其在 Golang 中的应用经验。

文章链接: Apache ECharts) HN 链接: Hacker News 讨论)

感谢 HN：6 周前发布的拼图游戏获《大西洋》授权，活跃社区促成快速成功

在短短 6 周内，拼图游戏 Bracket City 从 Hacker News 的推荐起步，迅速获得《大西洋》官方网站的授权发布。这款创新的游戏设计复杂，通过内外线索的组合，带来丰富的解谜体验。社区反馈显示，一些玩家希望改进游戏的用户体验，使得线索跟踪变得更简易。

阅读原文: Bracket City)

HN 链接: 在此查看)

Tailscale 完成 1.6 亿美元融资，致力于颠覆传统网络连接

Tailscale 最近完成了由 Accel 领投的 1.6 亿美元 C 轮融资，此轮融资旨在加速其“identity-first networking”理念的发展，这一理念将身份而非 IP 地址置于安全连接的核心。参与融资的还有 CRV、Insight Partners、Heavybit 和 Uncork Capital 等知名投资机构。Tailscale 创立于 2019 年，旨在简化复杂的 VPN 配置，目前已有上百万用户使用其服务来连接和保护他们的混合式、远程和云端网络。

文章链接: Tailscale Series C Blog) HN 链接: Hacker News Discussion)

AI 决策下的游戏开发：创意危机？

在 AI 技术的浪潮下，许多游戏开发者面临着前所未有的挑战与压力。尽管这些工具旨在简化工作流程，但许多开发者认为，AI 的介入正在削弱创意流程和个体表达。一些从业者分享了他们在 AI 主导的公司中被迫使用聊天生成器生成美术作品的无奈经历，甚至面临着用 AI 替代人力的潜在威胁。不过，许多艺术家仍相比于效率，更重视创作自由与艺术表达。这场技术对创意自由的冲击，究竟能否克服？

文章链接: An Overwhelmingly Negative and Demoralizing Force) HN 链接: Hacker News 讨论)

传奇 Cyc 项目终结：象征性 AI 的教训

Cyc 项目是由道格拉斯·勒那特创立的，旨在将符号逻辑扩展到人工通用智能领域。然而，经过四十年的发展，这一项目最终被认为失败了。尽管 Lenat 预测 Cyc 将通过阅读自然语言文本产生真正的机器学习，该系统却一直未能突破。Cyc 的封闭性和对象征性逻辑方法的坚持使得它在科学界受到批评。一些评论认为，随着深度学习的崛起和相对于知识工程的方法，Cyc 的路径被证明是不切实际的。

文章链接: Obituary for Cyc)

HN 链接: Hacker News 讨论)

破解 PostgreSQL 全文搜索“速度慢”谣言

这篇文章挑战了 PostgreSQL 内建全文搜索 (FTS) 性能较慢的常见误解。作者通过对 PostgreSQL FTS 和 pg_search 扩展进行基准测试，指出许多性能问题源于未优化的配置，而非搜索功能本身的限制。优化如预先计算和存储 tsvector 及正确使用 GIN 索引都能显著提升性能。通过这些优化措施，标准 FTS 性能可提升至 50 倍。如果需要更高级的排名性能，诸如 VectorChord-BM25 等专门扩展甚至能带来上千倍的改进。

原文链接: PostgreSQL Full-Text Search: Fast When Done Right (Debunking the Slow Myth)) HN 链接: Hacker News Discussion)

Meta 的 AI 游戏：造假 Llama 4 基准测试风波

近日，Meta 被曝在 AI 基准测试中对其新款 AI 模型 Llama 4 进行了不当优化，以便表现得优于竞争对手。这一事件引发了业界的广泛关注和质疑。有分析指出，Meta 将优化版本用于测试并声称其性能优越，这种行为受到了批评，并导致 LMArena 更新了其排行榜政策。

原文链接: Meta got caught gaming AI benchmarks)

HN 链接: news.ycombinator.com)

更好的排版体验：深入探讨 text-wrap: pretty

随着 text-wrap: pretty 在 Safari Technology Preview 的发布，网页的排版体验获得了前所未有的提升。通过优化文本换行，text-wrap: pretty 有效地解决了长久以来困扰网页排版的短行、坏排版，以及冗长连字符问题，为用户带来了更佳的阅读体验。评论中，不乏开发者表达了对这项技术的期待和性能疑虑，但多数观点都是对其创新和改善的称赞。

原文链接: Better typography with text-wrap pretty)

HN 链接: Hacker News)

程序员的顶尖秘诀：不畏惧脏手，勇于探索

在当今瞬息万变的技术领域，想要成为顶尖的程序员不仅需要掌握工具，更重要的是勇于尝试。Matthias Endler 在一篇文章中详细描述了这类程序员应具备的品质：包括深入理解工具、阅读参考文献、并且不惧从其他工程师中汲取灵感。令人印象深刻的评论指出，优秀的程序员往往愿意“弄脏他们的手”，不断学习和解决问题。他们不畏惧错误，始终保持谦逊与好奇心。这样的态度不仅提升了他们的技能，也增强了他们的声誉，从而在行业中脱颖而出。

原文链接：The best programmers I know)