We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

2025-04-10 | Llama 4 被质疑“刷分”，Meta 否认作弊

2025/4/9

Hacker News

AI Deep Dive AI Chapters Transcript

People

Hacker News 用户

LM Arena

博

博客文章作者

新

新闻报道

Topics

用户 lucasfcosta：Apache ECharts 是一款优秀的数据可视化库，它解决了其他库的不足，例如默认美观、后端计算图表规格以及灵活支持传统 BI 工具。我测试过几乎所有可视化库，Apache ECharts 是最好的选择，它默认美观，允许在后端计算图表规格，并只发送到前端进行渲染，而且非常灵活，支持传统 BI 工具能够做的所有事情。用户 neomantra：go-echarts 在 Golang 中使用非常方便，它简化了图表声明，非常适合数据和 JavaScript 的混合使用。与 Golang 一起使用时，体验同样令人满意，Go-ECharts 让图表声明变得更加简单，很适合数据和 JavaScript 的奇妙混合使用。 Bracket City 开发者：我的拼图游戏《Bracket City》在 Hacker News 发布后六周内被《大西洋》授权发布，这得益于 Hacker News 社区的反馈和支持。六周前，我在黑客新闻上发布的拼图游戏《Bracket City》被 The Atlantic 许可了。这个游戏现在已在 The Atlantic 网站上线，并且继续免费提供给玩家，不需登录即可玩。我还在继续制作所有的谜题。感谢黑客新闻的用户们，你们是 Bracket City 得到的第一批真正的玩家群体，而不仅仅是我妈妈的朋友们。从我们签约到游戏上线，The Atlantic 团队仅用了两周的时间，过程非常迅速。黑客新闻社区的反馈对我非常宝贵，这些包括技术性和编辑方面的建议。对于游戏的未来发展，社区的意见一直是我不可或缺的参考。 Hacker News 用户：对《Bracket City》游戏的改进建议包括优化谜题线索的视觉辨识和改进键盘设计，以提升用户体验。评论从这款创新游戏的乐趣出发，提出了一些改进建议，比如关于谜题线索嵌套的视觉辨识优化，以及改进游戏键盘设计以减少打字错误，这些建议反映了玩家们对游戏体验的关注和期待。 Tailscale：我们完成了 1.6 亿美元的 C 轮融资，这将加速我们‘身份优先网络’理念的发展，简化复杂的 VPN 配置，并提升网络安全与私密性。 Tailscale 最近完成了由 Accel 领投的 1.6 亿美元 C 轮融资，此轮融资旨在加速其“identity-first networking”理念的发展，这一理念将身份而非 IP 地址置于安全连接的核心。参与融资的还有 CRV、Insight Partners、Heavybit 和 Uncork Capital 等知名投资机构。Tailscale 创立于 2019 年，旨在简化复杂的 VPN 配置，目前已有上百万用户使用其服务来连接和保护他们的混合式、远程和云端网络。 Mitch：在 AI 主导的公司中，被迫使用 ChatGPT 等工具来加速开发进程，这让人感到无趣，并且可能从长远来看会降低代码质量。在这次关于人工智能如何影响视频游戏开发者的探讨中，我们发现了一系列对于工作环境的负面影响，从批评管理曾过分依赖 AI 生成图像到表达对于用 AI 生成代码的担忧，这一现象正在让人们的热情和创意受到挑战。一位名为 Mitch 的软件工程师提到被迫使用 ChatGPT 来加速开发进程，让人感到非常无趣，而且从长远来看还可能会产生质量不如人工编写的代码的后果。 Cyc 项目参与者：Cyc 项目旨在构建一个拥有常识的人工智能系统，尽管经过数十年的努力，但最终未能达到预期目标。 Psyche 项目的历程充满了起起落落，从始至终都以一个宏大的目标构建一个拥有常识的人工智能系统为中心。通过编码人类的常识知识，Psyche 试图克服早期专家系统的脆弱性和知识获取的瓶颈问题。数十年来，这个项目吸引了无数批评和质疑，但同时也不断探索和尝试，不仅在技术上解决了百余个挑战，在商业应用方面也取得了一定的成就，尽管这些成就并没有达到最初对人工智能的宏伟预期。 PostgreSQL FTS 博客作者：PostgreSQL 内置全文搜索 (FTS) 的性能可以通过正确的配置和优化显著提升，常见的性能问题源于未优化的配置，而非搜索功能本身的限制。在最近的一篇博客文章中，我们深入探讨了 PostgreSQL 内置全文搜索 FTS 的性能，与常见的误解相反，如果正确设置，PostgreSQL 的 FTS 可以达到非常快的速度。通过对比 Neon 的博文中提到的 PG 下划线 Search 扩展性能和标准 PostgreSQL FTS 设置，文章揭示了标准 FTS 配置未经优化的基本问题，并展示了通过简单的配置和优化，标准 PostgreSQL FTS 的性能可以实现约 50 倍的提升。此外，博客还介绍了 VectorCordBM25，这是一个专为高性能相关性排名设计的 PostgreSQL 扩展。文章强调准确配置 tsvector 列和正确的使用 GIN 索引，关闭 Fast Update 是提升传统 FTS 性能的关键。 Meta：我们对 Llama 4 模型进行了优化，使其在基准测试中表现更好，但这并非作弊行为。 Meta 在 AI 基准测试中作弊被抓个正着，试图通过调整 Lama4 模型，让其看起来比竞争对手更出色。Meta 声称其新推出的中型模型 Mavic 能在广泛报告的基准测试中超越 GPT-4O 以及 Gemini 2.0 Flash，这一成就迅速让 Mavic 在 LM Arena 一个让人类比较不同系统输出并投票选出最佳结果的 AI 基准网站上名列前茅。然而 AI 研究人员在审查 Meta 的文档时发现了一些不寻常之处，Meta 在小字部分承认在 LM Arena 上测试的 Mavic 版本并非向公众提供的版本。根据 Meta 自己的材料，他们向 LM Arena 部署了一个特别为对话性优化的 Maverick 版本。就在模型发布后两天，LM Arena 在 Ack 上表示，Meta 对我们政策的解释与我们对模型提供商的期望不符，并宣布将更新其排行榜政策以加强对公平、可重复评估的承诺，以避免未来的混淆。 LM Arena：Meta 在我们的基准测试中违反了政策，我们将更新我们的排行榜政策以确保公平性。就在模型发布后两天，LM Arena 在 Ack 上表示，Meta 对我们政策的解释与我们对模型提供商的期望不符，并宣布将更新其排行榜政策以加强对公平、可重复评估的承诺，以避免未来的混淆。 WebKit：text-wrap: pretty 功能显著提升了网页排版的质量，解决了短行、坏排版和冗长连字符等问题。 WebKit 最新推出的 Text Wrap Pretty 功能，为网页上的排版带来了前所未有的精致度。这项新技术能够通过段落计算法解决长期存在的问题，比如避免段落末尾只有一个单词，改善不规则边缘俗称糟糕的折形，减少连续使用连字符等，从根本上提升了在线文字的可读性和美观度。根据最新的 Safari 技术预览版，这项技术可以跨越整段文本，防止短形出现，改善文本的整体外观，从而减少了对联字符的需求。 Hacker News 用户：对 text-wrap: pretty 功能的评价褒贬不一，一些开发者对可能导致的性能问题表示担忧。社区反馈表明大家对这一新功能评价褒贬不一，一些开发者对可能导致的性能问题表示担忧，而其他人则对于如何区别使用 Pretty 和 Balance 保持着好奇。尽管 Texture App Pretty 的引入意在提升网页文本的美感和可读性，但它也引发了关于网页性能和浏览器实现差异的讨论，显示出在追求更好网页排版的过程中，还有许多细节和挑战需要解决。 Hacker News 用户：传统搜索引擎和 LLM 各有优劣，人们正在探索如何结合使用这两种工具以获得最佳的信息检索效果。最近有个帖子在 Hacker News 引起了人们的广泛讨论，提问者想知道大家是否还在使用搜索引擎。这个问题吸引了众多网友分享他们的使用习惯以及对传统搜索引擎和大语言模型 LLM 的看法。有些人认为，当知道某个资源存在但不知道确切网址时，搜索引擎是寻找信息的最佳入口。然而，也有人表示，随着信息的准确性逐渐降低，他们开始偏爱传统的搜索引擎，而不是 LLM。比如，使用 LLM 时，很难判断信息的真实性，另外通过传统搜索引擎浏览大量文档可以带来额外的学习机会。尽管如此，还是有人尝试结合使用这两种工具以获得最佳结果，如 Cadre 与 LLM 的配合使用引起了一些网友的兴趣。文章“The Best Programmers I Know”的作者：成为优秀程序员需要深入理解技术、阅读官方文档，而不是仅仅依赖 Stack Overflow 或 LLM，以及持续学习。文章强调了成为优秀程序员的重要素质，如深入理解所使用的技术，阅读官方文档，而非仅仅依赖 Stack Overflow 或者 LLM，善于简化问题及持续学习的重要性等。 Hacker News 用户：成为优秀程序员有多种途径，包括自学和跨学科学习。网友们纷纷表达自己的观点，比如 Bob1029 提到在解决问题时避免猜测是至关重要的，GoboCC 则分享了他在学习新知识时猜的过程。Ehrlichit 讲述了一个没有计算机科学背景，但成为顶级开发者的故事，凸显了自学和跨学科学习的价值。最终，可以看到不论是新手还是资深开发者，不断学习和正确处理问题的能力对于变得更优秀至关重要。这些评论不仅展示了程序员社区的多样性，同时也凸显了成长为一名优秀程序员的多条路径。

Deep Dive

Chapters

Meta 被指控在 AI 基准测试中为其 Llama 4 模型作弊，引发业界广泛关注。分析指出 Meta 使用优化版本进行测试并夸大其性能，此举遭到批评，并导致 LMArena 更新了其排行榜政策。评论区讨论了 Meta 的行为动机以及对 AI 领域竞争的影响。

Meta 被指控在 AI 基准测试中为 Llama 4 模型作弊
使用优化版本进行测试，夸大性能
LMArena 更新排行榜政策以避免未来类似事件

Shownotes Transcript

大家好,欢迎来到黑客新闻中文日报今天我们要聊的话题非常精彩首先,我们将探讨 Meta 在 AI 基准测试中的作弊事件这不仅令人质疑公司的诚信,也反映了当前 AI 领域激烈的竞争态势接下来我们会转向一个全新的技术革新 WebKit 推出的 TextWrap Pretty 功能将给网页排版带来巨大的变革

最后一个引人注目的讨论,在信息检索方面,大家是否还在使用传统搜索引擎,或者已经转向了大语言模型 LLM。这些内容都是从 HackerNoods 上精选的热点,确保你能获取到最前沿的科技资讯。Apache Etchits 成为了黑客新闻上的热门话题,这是一个开源的 JavaScript 可是画库,已经吸引了 1472 分的高评价。

使用者们分享了各种与 Etches 相关的经验,表达了对它的高度赞额。有人说,在构建 Briefer 过程中测试了几乎所有的可视化库,可以自信地说,Apache Etches 是最佳的选择。它解决了其他库的三个主要问题,默认美观,允许在后端计算图表规格,并只发送到前端进行渲染,以及极其灵活,支持传统 BI 工具能够做的所有事情。

还有用户表示,与 Golang 一起使用时,体验同样令人满意,Go Etches 让图表声明变得更加简单,很适合数据和 JavaScript 的奇妙,混合使用。此外,评论区还有人提及,无论是在文档、性能、易用性还是类型支持方面,Apache Etches 都表现出色,甚至有人认为它是目前最佳的开源可是画库。简要来说,Apache Etches 因其强大的功能和灵活性,在开发者社区中赢得了广泛的认可和赞誉。

六周前,我在黑客新闻上发布的拼图游戏《Bracket City》被 The Atlantic 许可了。这个游戏现在已在 The Atlantic 网站上线,并且继续免费提供给玩家,不需登录即可玩。我还在继续制作所有的谜题。感谢黑客新闻的用户们,你们是 Bracket City 得到的第一批真正的玩家群体,而不仅仅是我妈妈的朋友们。

有趣的是,从我们签约到游戏上线,The Atlantic 团队仅用了两周的时间,过程非常迅速。黑客新闻社区的反馈对我非常宝贵,这些包括技术性和编辑方面的建议。对于游戏的未来发展,社区的意见一直是我不可或缺的参考。

评论从这款创新游戏的乐趣出发,提出了一些改进建议,比如关于谜题线所嵌套的视觉辨识优化,以及改进游戏键盘设计以减少打字错误,这些建议反映了玩家们对游戏体验的关注和期待。

Tailscale 宣布成功筹集了 1.6 亿美元的 C 轮融资这轮融资由 Excel 领头 CRV Insight PartnersHeavybit 和 Uncork Capital 参与现有的天使投资者 Crowdstrike 的 CEO George Kurtz 也参与了本轮融资同时 Squarespace 的 CEO Anthony Casalinasin 加入作为本轮的投资者此次融资的成功不仅是 Tailscale 自 2019 年成立以来网络技术革新的一个里程碑也强调了市场对于其身份优先网络理念的认可

通过这种创新方法,Tailscale 将继续消除连接的摩擦,并使网络安全与私密性的维护更加便捷。评论区的反馈意见多种多样,有用户对 Tailscale 提出的价格策略和技术问题表达了担忧,但同时也有不少人对公司将如何利用这笔融资以及未来的发展方向表示了乐观的期待。不少评论都赞扬了 Tailscale 以用户为中心的设计和其在简化复杂网络问题上的创新努力。

在这次关于人工智能如何影响视频游戏开发者的探讨中我们发现了一系列对于工作环境的负面影响从批评管理曾过分依赖 AI 生成图像到表达对于用 AI 生成代码的担忧这一现象正在让人们的热情和创意受到挑战一位名为 Mitch 的软件工程师提到被迫使用 ChatGPT 来加速开发进程让人感到非常无趣而且从长远来看还可能会产生质量不如人工编写的代码的后果

而在艺术方面,人们关心的是,依赖 AI 创造的艺术品缺乏真正的情感和细微的人类触感,这与人类艺术家精心调研并创作出带有特定历史准确性、游戏特定性和灵魂的艺术品正相反。从评论区的反应来看,虽然一些人尝试着接受并利用这些新工具,但大多数人对于 AI 深入游戏开发的趋势感到担忧和失望,他们认为这种趋势可能会破坏创造力和工作激情。

Psyche 项目的历程充满了起起落落从始至终都以一个宏大的目标构建一个拥有常识的人工智能系统为中心通过编码人类的常识知识 Psyche 试图克服早期专家系统的脆弱性和知识获取的瓶颈问题

数十年来,这个项目吸引了无数批评和质疑,但同时也不断探索和尝试,不仅在技术上解决了百余个挑战,在商业应用方面也取得了一定的成就,尽管这些成就并没有达到最初对人工智能的宏伟预期。在评论区,人们对于 SAC 的看法褒贬不一。

有些人认为尽管塞克没有实现其最初的目标但在知识工程和推理系统方面取得的进步为人工智能领域做出了贡献而另一些人则对塞克几十年来相对有限的成果感到失望认为他最终未能证明人工智能研究中采用基于逻辑的符号处理方法的有效性

在最近的一篇博客文章中,我们深入探讨了 PostgreSQL 内置全文搜索 FTS 的性能,与常见的误解相反,如果正确设置,PostgreSQL 的 FTS 可以达到非常快的速度。

通过对比 Neon 的博文中提到的 PG 下划线 Search 扩展性能和标准 PostgreSQL FTS 设置,文章揭示了标准 FTS 配置未经优化的基本问题,并展示了通过简单的配置和优化,标准 PostgreSQL FTS 的性能可以实现约 50 倍的提升。此外,博客还介绍了 VectorCordBM25,这是一个专为高性能相关性排名设计的 PostgreSQL 扩展。

文章强调准确配置 Spectre 列和正确的使用尖索引关闭 Fast Update 是提升传统 FTS 性能的关键评论区的网友们对此有不同的看法一些人赞赏文章提供的优化技巧和深度分析认为这有助于更好的利用 PG 的原生 FTS 功能

而另一些人侧重于讨论如何在不同的应用场景中选择合适的搜索技术,包括何时使用专门的搜索引擎或扩展。整体来看,评论区的讨论丰富了全文搜索的多元使用场景和性能优化的重要性。Meta 在 AI 基准测试中作弊被抓个正着,试图通过调整 Lama4 模型,让其看起来比竞争对手更出色。

Meta 声称其新推出的中型模型 Mavic 能在广泛报告的基准测试中超越 GPT-4O 以及 Gemini 2.0 Flash 这一成就迅速让 Mavic 在 LM Arena 一个让人类比较不同系统输出并投票选出最佳结果的 AI 基准网站上名列前茅然而 AI 研究人员在审查 Meta 的文档时发现了一些不寻常之处 Meta 在小字部分承认在 LM Arena 上测试的 Mavic 版本并非向公众提供的版本

根据 Meta 自己的材料,他们向 LM Arena 部署了一个特别为对话性优化的 Maverick 版本。就在模型发布后两天,LM Arena 在 Ack 上表示,Meta 对我们政策的解释与我们对模型提供商的期望不符,并宣布将更新其排行榜政策以加强对公平、可重复评估的承诺,以避免未来的混淆。

评论区的网友们对此事进行了热议,有人表示对于一个已经因多起争议而名声不佳的公司来讲,并不感到惊讶 Meta 会有此行为。还有评论指出,这一系列负面报道让人怀疑 Meta 后续的动作,并且暗示此举可能与高层压力有关。此外,一些观点认为 Meta 此举反映了其对激烈 AI 竞争的无奈应对,以及在开放模型竞争中落后的焦虑。

WebKit 最新推出的 Text Wrap Pretty 功能,为网页上的排版带来了前所未有的精致度。这项新技术能够通过段落计算法解决长期存在的问题,比如避免段落末尾只有一个单词,改善不规则边缘俗称糟糕的折形,减少连续使用连字符等,从根本上提升了在线文字的可读性和美观度。

根据最新的 Safari 技术预览版,这项技术可以跨越整段文本,防止短形出现,改善文本的整体外观,从而减少了对联字符的需求。然而,与此同时,Chrome, Edge 以及 Opera 等浏览器,虽已在 2023 年秋季支持 Textwrap,Pretty,但它们的实现方法更为有限,主要集中在避免段落末尾出现短形上,这显示了不同浏览器在实现这一特性时的差异性。

社区反馈表明大家对这一新功能评价褒贬不一,一些开发者对可能导致的性能问题表示担忧,而其他人则对于如何区别使用 Pretty 和 Balance 保持着好奇。尽管 Texture App Pretty 的引入意在提升网页文本的美感和可读性,但它也引发了关于网页性能和浏览器实现差异的讨论,显示出在追求更好网页排版的过程中,还有许多细节和挑战需要解决。

最近有个帖子在 Hacker News 引起了人们的广泛讨论,提问者想知道大家是否还在使用搜索引擎。这个问题吸引了众多网友分享他们的使用习惯以及对传统搜索引擎和大语言模型 LLM 的看法。有些人认为,当知道某个资源存在但不知道确切网址时,搜索引擎是寻找信息的最佳入口。

然而,也有人表示,随着信息的准确性逐渐降低,他们开始偏爱传统的搜索引擎,而不是 LLM。比如,使用 LLM 时,很难判断信息的真实性,另外通过传统搜索引擎浏览大量文档可以带来额外的学习机会。尽管如此,还是有人尝试结合使用这两种工具以获得最佳结果,如 Cadre 与 LLM 的配合使用引起了一些网友的兴趣。

评论区的网友们普遍关注的是搜索质量的下滑以及如何在新旧工具间找到最佳的信息检索方法本次我们深度剖析了一篇标题为 The Best Programmers I Know 的博文文章地址是 https://endler.dev-2025-best-programmer-在黑客新闻上也引起了广泛的关注一位名为 TN1 的用户分享了这篇文章并得到了许多网友的热评

文章强调了成为优秀程序员的重要素质,如深入理解所使用的技术,阅读官方文档,而非仅仅依赖 Stack Overflow 或者 LLM,善于简化问题及持续学习的重要性等。

网友们纷纷表达自己的观点,比如 Bob1029 提到在解决问题时避免猜测是至关重要的,GoboCC 则分享了他在学习新知识时猜的过程。Ehrlichit 讲述了一个没有计算机科学背景,但成为顶级开发者的故事,凸显了自学和跨学科学习的价值。最终,可以看到不论是新手还是资深开发者,不断学习和正确处理问题的能力对于变得更优秀至关重要。

这些评论不仅展示了程序员社区的多样性同时也凸显了成长为一名优秀程序员的多条路径感谢您收听今天的黑客新闻中文日报希望今天的内容能为你提供新鲜的思考和启发如果你喜欢我们的节目请不要忘记订阅我们的播客并与朋友们分享期待与你分享更多科技资讯我们明天再会

2025-04-10 | Llama 4 被质疑“刷分”，Meta 否认作弊 12:08 Share

Hacker News

Deep Dive

Shownotes Transcript

2025-04-10 | Llama 4 被质疑“刷分”，Meta 否认作弊