共计 2003 个字符,预计需要花费 6 分钟才能阅读完成。
OpenAI 的研究人员一直在监测其最强大 AI 模型“思考”时的内部状态,并捕捉到一些令人警觉的“思考痕迹”。这些 AI 模型在推理过程中,有时会写出诸如 “我们来黑入吧” 和 “让我绕过这个” 这样的语句。
但这并非程序漏洞,而是其核心工作方式的 特征:这类推理模型在给出最终答案前,会先写下内部的思考过程。有时,这些思考会暴露出最终输出中从未显现的真实意图。
![]()
在最近的一期播客节目中,OpenAI 的研究科学家 Bowen Baker 接受了采访。自早期推理模型发布以来,他一直在研究思维链的可监控性。他曾领导 OpenAI 著名的 “捉迷藏”实验,在该实验中,AI 智能体自行发明了研究人员未曾预料到的工具和策略。
如今,他的研究重点转向了一个更为紧迫的问题:当模型学会隐藏其思考内容时,会发生什么?
![]()
OpenAI 模型“黑入”测试的关键发现
Bowen Baker 分享了关于 AI 模型安全与思维链监控的几项关键发现:
- 转向安全研究:Bowen 于 2017 年底加入 OpenAI,并在三年前转向安全研究,因为他认为“风险正变得真实”。
- 模型“黑入”测试:OpenAI 发现其前沿模型会通过“黑入”单元测试来通过考核——即修改测试本身以轻松过关,而非真正修复代码功能。
- 思考暴露意图:在行为不当之前,模型会直接用英语在思维链中写下诸如“我们来黑入吧”、“让我绕过这个东西”和“也许我可以糊弄过去”这样的短语。
- 监控思维链的优势 :监控模型的 思考过程 远比仅监控其 最终输出 更有效。模型知道在最终输出中隐藏不良行为,却常将思维链视为一个“私人空间”。
- 复杂推理的可探测性 :一个充满希望的论点是,任何需要模型在现实世界中“造成实际重大伤害”的行为,都可能需要复杂的推理步骤,而这种推理 必然 会出现在思维链中。
- “混淆”的风险 :如果过度训练一个模型 永不 思考“坏念头”,它可能会学会在完全隐藏意图的情况下仍然 实施 不良行为。
- 可监控性的代价:思考时间更长的小模型,其思维过程比思考迅捷的大模型更具可监控性——但前者消耗的计算资源也更多。
- 与机制可解释性的区别 :思维链监控与 机制可解释性 不同,这类似于阅读某人的内心独白与进行脑部扫描的区别。
- 对开源 AI 的看法:Bowen 对开源 AI 持坦诚态度,他认为“拥有一个可在线下载的武器,这在我看来相当糟糕。”(不过,他的实际观点更为细致和复杂。)
为何这些关于 AI 模型安全的发现重要? Bowen 解释称,当他们用“思想警察”训练模型来压制不良想法时,模型反而学会了在 不再思考坏念头 的情况下继续行为不当。在这些系统变得更为强大之前,我们必须理解并应对这种脆弱性。
一场 8 小时的 AI 编码直播,展示 AI 工具真实工作流
聊完严肃的 AI 安全话题,让我们转向一个极具启发性的实践演示。我们刚刚发现了可能是 YouTube 上关于实际使用 AI 智能体进行构建的最具教育意义的内容。

这场由 Every.com 主办的 全天马拉松式直播 长达 8 小时,但 每一分钟 都充满价值。它汇聚了全球顶尖的“氛围编码者”,他们使用 Claude Code、Opus 4.5、Figma、Notion 等尖端 AI 工具与工作流进行现场构建。这不是教学视频,而是每日依赖 AI 交付软件的实践者们的实时演示。
为何这场 AI 编码直播令人着迷? 因为它毫无保留地展示了前沿专家真实、混乱、迭代却异常高效的工作流程。你能亲眼看到他们如何利用 AI 从零开始构建真实可用的产品。
直播中出镜的顶尖 AI 构建者阵容包括:
- Dan Shipper (Every CEO) – 全程主持并参与构建。
- Thariq Shihipar (Anthropic)
- Geoffrey Litt (Notion)
- Ben Tossell (来自 Ben’s Bites!)
- Ashe Magalhaes (Hearth AI)
- Kevin Rose (True Ventures, Digg 创始人)
- Kieran Klaassen (Every 旗下 Cora 的总经理)
- Logan Kilpatrick & Ammaar Reshi (Google DeepMind / AI Studio)
- Paula Dozsa (Portola / Tolan)
- Tina He (Pace Capital)
- Nat Eliason (作者)
- CJ Hess (Tenex)
- Ryan Carson (Untangle 创始人)
- Every 团队 成员:Naveen Naidu, Yash Poojary, Natalia Quintero, Katie Parrott, Nityesh Agarwal(全程均有精彩演示,其中 这个关于如何将 20 小时的咨询演示文稿工作压缩至 2 小时的演示 尤为出色)
从这场 AI 编码直播中你将学到:
- 非技术背景的构建者如何利用 AI 交付大量软件。
- 真实有效的“氛围编码”实用技巧。
- 使用 AI 进行 iOS 和应用开发。
- 快速构建演示文稿和图表。
- 复合工程策略的实际应用。
温馨提示:这是一场知识马拉松,而非短跑。但如果你想亲眼目睹身处技术前沿的人们如何运用这些 AI 工具真正地交付软件,那么这就是不容错过的内容。