We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

2025-06-16 | Claude 模型以第一作者写论文反驳苹果「推理模型根本没有推理能力」

2025/6/16

Hacker News

AI Deep Dive AI Chapters Transcript

People

作

作者

听

听众

无足够信息构建个人资料

用

用户

研

研究团队

研

研究者

网

网友

Topics

作者：我认为Apple的论文引发了关于大型语言模型推理能力的激烈讨论。针对该论文的七种主要反驳方式，我认为都站不住脚。人类在解决复杂问题和记忆方面存在困难，但机器应该能够做得更好，否则就离通用人工智能（AGI）还很远。大模型失败并非因为输出token限制，而是因为模型本身存在推理短板。指责论文是实习生所写是没有道理的，因为论文团队成员水平很高。模型规模的扩大并不能自动提升推理能力，模型在小规模任务上的成功可能是假象，一旦任务复杂度提升，其短板就会暴露出来。如果模型只能通过下载代码来解决问题，而不是进行推理或理解概念，那么在面对新问题时表现会很差。虽然有人认为案例数量太少，实验设计不够完美，但我认为类似证据在其他论文中也存在，问题具有普遍性。现在的LLM远未达到可靠的推理和泛化能力，单纯地大规模扩展参数并不能使AI自然变强。网友：我观察到大语言模型只有在见过类似解法时才能进行较好的推理，一旦遇到新情况就容易出错。有些AI甚至缺乏自我检查和报错的能力。总的来说，我认为Apple的论文确实促使行业将目光聚焦到LLM推理短板这一关键问题上。

Deep Dive

Chapters

Apple最近发布的一篇论文引发了关于大型语言模型（LLM）推理能力的广泛讨论。该论文指出，LLM在复杂推理任务中存在局限性，即使模型规模不断扩大，也难以突破。文章总结了七种常见的反驳观点，并逐一进行了分析，最终结论是现有LLM的推理和泛化能力有限，单纯依靠扩大模型规模并不能解决问题。

Apple论文质疑LLM推理能力
七种反驳观点被一一驳斥
LLM在复杂推理任务中存在局限性
单纯扩大模型规模无法解决问题

Shownotes Transcript

大家好欢迎收听黑客新闻中文日报今天我们聚焦人工智能领域的一场重要争论 Apple 最新发布的关于大语言模型推理能力的论文在科技圈引发了激烈讨论

我们将探讨为什么大模型在复杂推理任务中仍显短板行业专家和网友又给出了哪些令人深思的反驳与观点同时带你了解一项新研究揭示 Q-learning 强化学习方法在大规模常练任务中依旧面临难以逾越的障碍它与行业主流大模型的进阶路径有着怎样的本质差异

除此之外还有科技公司如何通过先进的数据分析和监控技术影响新闻自由及用户隐私的问题这背后的争议和影响同样值得关注精彩即将开始敬请收听最近有一篇关于 Apple 的大语言模型推理能力的论文引发了极大的关注很多媒体和社交平台都在讨论

作者总结了网友们对这篇论文的七种主要反驳方式比如说有些人认为人类本来也很难解决复杂问题和记忆负担但机器理应能做到我们不能做的事情如果只做到和人一样离 AGI 还差得远还有人提出大模型输出长度有限所以像汉诺塔这样需要大量步骤的题目本来就超出模型的能力但实际上模型在步数远没达到极限时也会失败这说明问题不是出在 token 限制

另外有些批评甚至针对作者本人,比如指责论文是实习生写的,但实际上论文团队成员水平很高,这种质疑并不成立。也有观点认为只要模型更大,就会自动学会推理,但实验显示大模型可能在规模小的任务上假装成功,一旦任务复杂度提升,很快就暴露短板。

论文还指出,如果模型只能通过下载别人写的代码来解题,而不是自己推理或者有概念理解,遇到陌生问题或者新环境就会表现不佳。

虽然有人认为案例数量还太少,实验设计不是很完美,但作者反驳说,类似的证据在其他论文里也见过不少,问题具有普遍性。有些评论说这些问题其实行业早就知道,并不新鲜,那就更应该正视这类基础性短板。论文最后的观点是,现在的 LLM 远没有达到可靠的推理和泛化能力,继续单纯大规模扩展参数,并不能让 AI 自然变强。

评论区有不少网友讨论得很深入比如有人指出大语言模型只有见过类似解法才会推理得好一旦遇到新情况就容易出错而且比起人类有些 AI 连自我检查和报错的能力都没有目前讨论最激烈的争议点还是在于什么才是真正的推理能力以及我们究竟应该用什么标准去评判 AI 的智能整体来说大家认为 Apple 这篇论文虽然有争议但确实让行业把目光聚焦到了 LLM 推理短板这个关键问题上

Starlink Mini 是一个集成了 WiFi 路由器的便携终端,但对一些有特殊网络需求或者在电力受限场景下的用户来说,去掉内置路由器会带来更大的灵活性作者这次详细讲解了如何物理拆除 Starlink Mini 1 的内置 WiFi 路由板,只保留以太网接口使用,需要用专业工具耐心拆解而且特别提醒不要拆下主板上的金属板,因为它既做散热也防止电磁干扰

拆掉路由板以后,Starlink Mini 的网口可以直接连接到自定义的以太网设备,不过必须加上以太网变压器来保证隔离和安全。实际接线时要用到 12V 直流电源和专用的板对板接口,作者还提供了详细的接线图。

配置好网络后,Starlink 终端会在没有卫星连接时自动分配 192.168.100.024 的 DHCP 地址,等连上卫星后会获得公网 IP,只有第一个连接的设备能拿到 IP,如果想接多设备可以加路由器。GRPC 接口可以输出很多状态信息,比如无连接、过热、定位异常等都能实时监控。

评论区有网友觉得 Starlink Mini 采用定制以太网方案很有意思,也有用户表示这种改造对于省电或者嵌入式场景非常适用,还有人补充了拆机相关的资料和档案链接,方便后续参考。天眼 Mir 这个名字,很多老玩家应该都不会陌生。它原本是 Windows 系统自带的 MIDI 音乐演示文件,经常会出现在早期多媒体电脑的声音演示里。

而有网友发现,最近有人特地做了一个网站天烟灭点看,把这首歌放进了一个仿复古电脑的界面里,视频画面看起来就像在老电脑上播放一样。其实,里面用来模拟的机型天底 1000RSX,1991 年发布的时候已经配备了 Super VGA 显卡,不过并没有标配 Adlib 或 Sound Blaster 声卡,想要更好的音效还得自己加卡。

你会发现当年一首简单的 MIDI 音乐,原始文件只有 33KB,现在视频版就变成了 3.4M,体积增大了上百倍,也引发了不少怀旧感慨。有网友在评论区回忆,当时没有声卡只能通过 PC 喇叭玩游戏,尽管声音简陋,却自有一股原始的魅力,而 MIDI 版本反倒觉得有点平淡。另外,大家也怀念那个时代的极简主义设计,尽管配置有限,但是有无限的创意空间。

还有人感叹,播放一首 MIDI,在 Windows 里点一下就听到,而在 Linux 下要折腾很久,这种小确幸在不断进化的电脑里似乎变得越来越难找了。Q-Learning 目前还不适用于大规模扩展。虽然最近几年像大语言模型,去造扩散,对比学习等方法都能通过增加数据和算力来大幅提升表现,但在强化学习这个领域,特别是用 Q-Learning 这样的 off-policy 方法去解决复杂,长决策链条的问题时,遇到了很大障碍。

做过实验的研究者发现,哪怕数据量和模型都给到极限,Q-learning 也很难把复杂任务里的表现拉到最优。核心问题是决策链条越长,算法里累积的预测偏差会越来越大,光靠更多数据或者更大的模型其实解决不了根本问题。

相比之下,那些表现突出的 RL 系统,比如 AlphaGo 或用在大模型训练里的算法,普遍还是 Unpolicy 的方法,像 PPO、GRPO 这样的算法虽然采样效率不高,但更容易应对长期决策里的累计偏差。最新研究测试了各种强化学习任务,像复杂的拼图或迷宫导航,标准的 Q-learning 和其他流行的 Off-Policy 方法表现都有限,只有通过缩短决策链条,比如用 N-Step 预测或层次化 RL,才能实现较明显的提升。

整体来看,Q-learning 想要像别的主流 AI 技术那样受益于大规模数据,算力扩展,还需要在算法层面有突破。评论区有网友指出,Q-learning 随着任务复杂度提升需要指数级的数据,面对移动把心式的问题,普通的指标其实聚焦不到点子上。还有网友提出,像 Decision Transformer 或 Trajectory Transformer 这样新颖的方案,也许会在长链条任务中打开新的局面,但是不是真正的,RL 社区里还有争议。

无限大的电阻网格问题其实在电气工程领域有不少实际意义,尽管它看起来更像是一个抽象的数学谜题。文章介绍了一个著名的问题,在一个由无数个电阻组成的二维正方形网格中,每两个相邻点之间都用一个电阻 R 连接,这个网格四面八方无穷延展。如果问你,两个相邻的节点之间的等效电阻是多少,很多教材和经典解法会用到对称性和叠加原理,最后得到结果是 R 除以 2。

换句话说,如果每两个相邻节点之间用 1 欧姆的电阻相连,那么实际测出来的等效电阻就是 0.5 欧姆。这个推导用到了对称性假设,把电流分流的情况看作是四个完全对称的方向,进一步抽象还涉及到拉普拉斯方程和负理叶集数等一系列复杂的数学工具。

文章也提醒,之所以这个题目有争议,是因为真正的无穷大物理系统并不存在,任何真实的电路都会有电感和电容。而我们用理想化的假设只是为了简化推导,实际上对于真实物理电路来说,这套分析成立的前提并不是绝对合理。

评论区有人提到,类似的问题在硅片的杂散电阻、造生偶合等微观电路设计中很常见,也有人认为这个题对于本科生电路课程来说有点太偏理论了,实践相关性有限,还有网友分享了他们上大学时对于这个题目的头疼经历。整体来看,大家一致认同这个问题背后所体现的对称性和叠加思想非常有启发意义,但也有网友调侃这是典型的无用而优雅的电路思维训练题。

一项发表于美国国家科学院院刊的动物实验显示,来自社交焦虑障碍患者的肠道菌群会导致小鼠在面对社交情境时表现出更强烈的社交恐惧。研究团队通过 16S-RRNA 测序分析,这些患者的肠道菌群和健康对照组有明显差异。

实验中把这些患者的微生物移植到小鼠体内后,小鼠在常规的抑郁和一般焦虑测试中并没有异常,但在专门社交恐惧的测试环节中会变得异常敏感,表现出社交回避行为。研究还发现,这种变化和小鼠免疫系统以及大脑中特定的催产素表达水平有关,提示社会恐惧反应可能跟肠道微生物有跨界影响。

这个发现也让科学家们期待未来能以肠道微生物作为社交焦虑障碍的新治疗靶点评论区里有网友表示自己减少糖分摄入后明显觉得焦虑减轻也有不少人觉得肠道和大脑关系比想象中更紧密还有人则呼吁类似的实验最终还是要回到人体临床上验证一位技术玩家分享了用 Raspberry Pi 修改 HDMI dummy plug 的 EDID 这个小经验

其实 Dummy Plug 就是一个小转接头,可以插在 HDMI、DVI 等接口上,用来假装接了显示器。最常见的用途就是让无头主机或者远程机器强制输出画面。作者原本手上的 Dummy Plug 会模拟成一个 4K 显示器,他希望能把它改成只支持 1080P,这样能兼容更多设备。

于是他用 Raspberry Pi Zero 通过内置的 IRC 接口读取并且重写了 dummy plug 里存储显示器信息的 E-Prime 芯片把一个真实的 1080p 采集卡的 EDID 复制进去实现了把 dummy plug 伪装成采集卡的效果操作结束后系统就会认为插入的是采集卡而不是原来的 4K 屏注意这个过程需要对硬件操作比较熟悉万一搞错了可能会导致硬件变砖所以不建议直接在 PC 上操作建议用 Raspberry Pi 安全性高一些

评论区中网友补充说,现在市面上的便宜 Dummy Plug 存储容量其实有限,想模拟高分辨率高刷新率的显示器有难度,同时 Dummy Plug 本身也不支持 HDCP,无法满足需要 HDCP 的视频流场景,还有人分享了一些 EDID 编辑工具和资源,方便进阶玩法。

阿波罗登月任务使用了一种非常特别的仪表,叫做 FDAI,也就是飞行指引和姿态显示器,这个设备被宇航员昵称为八豹,因为它有一个像台球那样的旋转球体,能够精确显示宇宙飞船当前在三维空间中的朝向。仪表上不仅有三根黄色指针用来指示飞行姿态,还能实时显示航天器的转动速度。

这个球其实可以围绕三个轴自由旋转,通过电机和精密的机械结构实现复杂的三轴运动,但球本身被巧妙地固定住,利用外部旋转的翘体来补足第三个轴。每个登月舱上都有两个这样的 FDAI,分别放在指令长和飞行员的位置非常显眼,可见其重要性。

这些仪表能根据仪表盘上的切换开关从不同的导航系统和传感器获取数据实时切换显示来源并且还搭载了冗余系统来保障飞行安全 FDAI 采用了滑环组件传输电信号保证球体能够多圈旋转而不会把电线缠绕坏

电子部分则大量用到上世纪五六十年代常见的同步器和模拟四幅环路进行信号传递和动作控制确保显示器能快速准确地跟随飞船实际姿态转动 FDAI 本身的设计经历了多次演变从早期的战斗机火箭飞机一直发展到阿波罗任务和后来的航天飞机并不断在实际需求和新技术之间做出改进

文章还细致分析了阿波罗 FDI 和其他同类仪表,比如 RU-11A,以及为模拟器和航天飞机做的定制修改,包括更换照明方式,调整指针反馈,电气接口升级等。评论区有网友感慨,这样的精密工程制造和仪表设计,如果一味外包和放弃本地制造,很多基础技术可能会失传。

还有人觉得巴豹这种直观的空间姿态显示方法比现代飞机上的梯形姿态一更容易一眼看出飞行方向非常适合像 Apollo 这样需要高效决策的任务也有网友分享了他们在飞行模拟器中使用类似仪表的体验对这种设计表示赞叹 The Art of Lisp and Writing 这篇文章把 Lisp 编程和写作的过程做了深入类比作者认为 Lisp 更像是一个创作媒体而不是传统意义上的编程语言

写 Lisp 程序时,开发者可以像写诗人或作家那样探索和修正自己的想法,随时调整和完善,发现和修饰,这两个环节总是交织在一起的,这和写作过程中修改,推敲不断打磨文本的过程非常类似。相比之下,像 Java 这样的语言更像是严格定义语法和词汇的现有语言,强调在一开始就做出很多决定,后续想修改就会受到很多限制。

作者还讨论了软件工程和其他人类活动如科学、工程、艺术的关系,指出技术进步往往需要先大胆尝试,不断是错,而不是一开始就追求完美的结构。他以建筑桥梁为例,说明即使是被认为高度科学化的工程学领域,也不乏失败和反复验证。LISP 作为一种高度动态的语言,非常适合探索和实验式开发,是理解编程创作本质的好工具。

评论区有些网友提到,他们曾经在写 Python 的早期也感受到类似的创造乐趣,但现在工具和语言越来越偏向标准化和严谨,少了那种自定义和探索的空间,也有人觉得现代主流语言更多是在满足工作和市场需求,Lisp 这种探索和创新为导向的文化已经比较小众。还有人认为,Python 虽然继承了 Lisp 某些灵活的特性,但在类型和依赖管理等方面,还是不如 Lisp 那么自由。

感谢你收听今天的黑客新闻中文日报。如果你喜欢我们的内容,欢迎订阅、分享我们的播客,让更多朋友加入技术与创新的讨论。希望这些热点科技资讯能为你带来新的启发和思考。我们明天再见。

2025-06-16 | Claude 模型以第一作者写论文反驳苹果「推理模型根本没有推理能力」 14:50 Share

Hacker News

Deep Dive

Shownotes Transcript

2025-06-16 | Claude 模型以第一作者写论文反驳苹果「推理模型根本没有推理能力」