Claude 模型以第一作者写论文反驳苹果「推理模型根本没有推理能力」

近期 Apple 的一篇关于大型语言模型（LLMs）推理能力的论文引发了广泛争议——不仅在社交媒体上刷屏，更吸引了包括 The Guardian 在内的主流媒体深入报道。这篇论文挑战了“模型规模=智能进步”的主流假设，指出 LLMs 在类似汉诺塔等经典任务上，随着问题复杂度上升，推理能力大幅崩溃。

Jun 16, 2025

七种反驳 Apple 热门推理论文的观点，为何都站不住脚？LLMs“推理短板”实锤

近期 Apple 的一篇关于大型语言模型（LLMs）推理能力的论文引发了广泛争议——不仅在社交媒体上刷屏，更吸引了包括 The Guardian 在内的主流媒体深入报道。这篇论文挑战了“模型规模=智能进步”的主流假设，指出 LLMs 在类似汉诺塔等经典任务上，随着问题复杂度上升，推理能力大幅崩溃。而围绕论文的七种流行反驳观点——“人类也会犯错”、“输出 token 有限制”、“实习生写的论文”、“模型再大就能解”、“能用代码就算会”、“只测了四个例子、汉诺塔不完美”、“模型泛化性本来就差”——都一一被作者 Gary Marcus 以数据和逻辑击破。核心结论是：现有 LLM 确实存在推理与泛化能力局限，靠不断“堆大”模型难以突破 AGI 的所谓“天花板”。这也促使业界对“AI 需要神经网络+符号主义混合架构”的呼声再度高涨。

文章链接: Seven replies to the viral Apple reasoning paper and why they fall short

HN 链接: news.ycombinator.com

Starlink Mini 改造实录：轻松绕过内置 WiFi 路由器，释放硬核网络能力

在这篇硬件改造教程中，Oleg Kutkov 详细揭示了如何将 Starlink Mini 终端拆解，并彻底去除其内置的 WiFi 路由模块，使设备专注于以太网通信 —— 这对于定制网络环境、嵌入式场景或极限功耗应用具有极高吸引力。拆解过程强调保持金属屏蔽/散热板的重要性，同时给出了电源、网络接口的实用修改方案。评论区重点讨论了 Starlink Mini 所采用的主芯片和高效的板对板千兆以太网连接方案，也有用户提出未来型号兼容性和真实功耗表现的技术疑问。教程还补充了一系列实用的 gRPC 诊断代码，让玩家可以实时监控终端状态并排查故障，适合进阶折腾党和网络极客深度参考。

文章链接: How to modify Starlink Mini to run without the built-in WiFi router

HN 链接: news.ycombinator.com

怀旧的 Windows 乐章 canyon.mid：一首 MIDI 音乐唤起 90 年代电脑的黄金记忆

CANYON.MID 这首 Windows 时代的经典 MIDI 音乐，近日成为 Hacker News 热议话题。它曾作为 Windows 系统内置的演示曲目，在无数用户的童年电脑上响起，唤起极强的怀旧情感。评论区讨论了 Tandy 1000 RSX 等经典电脑，有人回忆起在没有声卡、只能用 PC 喇叭听游戏音乐的年代，也有人感慨当时的极简设计、手动配置反倒更有创意和乐趣。甚至有人贴出了曲作者 George Stone 的专访，还有粉丝分享不同合成器下的 canyon.mid 多样版本。

文章链接: Canyon.mid
HN 链接: news.ycombinator.com

Q-learning 还不能大规模扩展？深度探讨 RL 天花板与未来突破

在这篇文章中，作者深入讨论了为什么 Q-learning 作为主流 off-policy reinforcement learning 算法，当前还无法像 LLM 这样的深度学习模型那样进行大规模扩展，尤其是在需超过 100 步长远决策的复杂任务中。文章不仅从理论和实验两个角度剖析了原因，如预测目标的偏差沿时序累计导致性能瓶颈，还通过实验证明，仅仅堆叠数据和算力无助于突破“地平线诅咒”。评论区热议如：lalaland1125 和 itkovian_ 分析状态空间指数级扩展和 off-policy 方法的移动目标难题，isaacimagine 指出新兴 Decision Transformer 及 Trajectory Transformer 方法对长时序任务的变革潜力。

对于希望突破 RL 天花板的研究者来说，文章还提出“地平线缩减”（如 n 步回报、分层 RL）是目前唯一有效的扩展技巧，并号召社区思考全新指标和方法——有望让 RL 迈向真正可扩展。文章不仅对算法研究极具启示性，更为实际应用（如机器人、智能体等）拓展了想象空间。

文章链接: Q-learning is not yet scalable HN 链接: news.ycombinator.com

无限电阻网络谜题：电路学与现实世界的奇妙交集

在本期播客里，我们聊到了著名的“无限电阻网络 Infinite Grid of Resistors”数学谜题，它不仅考验了电路理论的基础，对集成电路的底层噪声耦合等实际工程问题也有启发意义。这个问题看似纯粹的数学趣味题，但实际上硅基电路中的衬底电阻就近似于一个无穷大电阻网格。高分评论提到了该谜题在电子工程和教育中的现实应用，同时也展开了关于边界条件、对称性与超位置法在解题过程中的纷繁讨论，甚至引出了电路物理极限和一些趣味的物理直觉考量。

文章原文链接：Infinite Grid of Resistors
HN 讨论区链接: Hacker News 讨论串

肠道菌群与社交焦虑：你“害羞”可能和肠胃有关？！

最新研究发现，来自社交焦虑障碍（SAD）患者的肠道微生物群移植到小鼠体内后，会使小鼠出现更强烈的社交恐惧反应，而不会影响其他焦虑或抑郁模型。这一独特的社交恐惧行为还伴随着免疫系统及大脑中催产素表达的显著变化，为理解脑肠轴机制和探索新型治疗途径提供了线索。Hacker News 社区的讨论也非常热烈，用户分享了类似“吃糖或肠道环境变化会影响焦虑”的亲身经历，并对益生菌及饮食干预的效果展开了理性辩论，有人提出“这类研究需要与人类实际数据进一步验证”。

文章链接: Social anxiety disorder-associated gut microbiota increases social fear
HN 链接: Hacker News 讨论

用树莓派自定义 HDMI 虚拟显示器的 EDID，破解高分辨率限制

本期介绍一项极客级操作：作者通过 Raspberry Pi 成功修改了一款廉价 HDMI 虚拟显示器（dummy plug）的 EDID 信息，让它伪装成另一款设备，实现分辨率欺骗和适配。实验过程中，作者详细展示了如何备份、刷写 EDID 数据，并提醒各位动手党注意 EEPROM 容量、写保护与高分辨率模拟限制（如 4K@240Hz 实际不可行），还说明了 dummy plug 在无头机器和旧硬件分辨率兼容性中的应用和注意事项。评论区也有不少读者分享了对各种 dummy plug、HDCP 支持及 KVM 兼容性的探讨，以及寻找更丰富 EDID 仓库的心得。

文章链接: Modifying an HDMI dummy plug's EDID using a Raspberry Pi

HN 链接: news.ycombinator.com

揭秘阿波罗 "8-ball" 姻缘：从登月舱到航天飞机模拟器的航向之眼

本文深度解析了阿波罗任务中至关重要的 “8-ball” FDAI（Flight Director / Attitude Indicator）航向指示仪。文章详细披露了它如何通过三轴旋转为宇航员直观呈现飞船姿态，以及复杂的机械、电气结构背后的工程巧思。不仅如此，作者还介绍了这台仪表如何由阿波罗时期改装成航天飞机模拟器专用装置，揭示了航天仪表在历史中的演化。评论区热烈讨论了该仪表用户体验的优劣、经典UI设计、现代航天与工程制造知识的传承，以及与苏联同类装置、飞行模拟游戏的比较。网友们向作者提问技术细节，更有不少人被 "一眼看懂的姿态" 所震撼，呼吁不要让这类基础工程手艺流失。

文章链接：Inside the Apollo “8-Ball” FDAI (Flight Director / Attitude Indicator)
HN 链接: news.ycombinator.com

用 Lisp 编程如写作——探索与创造的艺术结合

Lisp Programming Language Influence Network Graph Art Print

在 The Art of Lisp and Writing 这篇经典文章中，作者将 Lisp 编程比喻为写作：它不止是技术实现，也是艺术创作。这种思想引发了 Hacker News 上的热议，许多开发者分享了自己对 Lisp、Python、Go 等语言的情感与实践体会。有人认为，像 Lisp 和 Smalltalk 这样高度可塑、富有表现力的语言，最适合探索创意和需求，而现代主流语言更多关注稳定、兼容与工程化。讨论还延伸到语言生态和社区氛围：Lisp 社区往往更“硬核”、更注重精神传承，而主流语言生态被就业与商业拉动。值得一提的是，部分评论者指出，Lisp 的“开放性”并非浪漫主义，而是编程本质的回归——把系统当作可雕琢的材料而非固定容器。

文章链接: The Art of Lisp and Writing
HN 链接: Hacker News 讨论串

Hacker News 中文日报

Discussion about this post

Ready for more?