从「一个神经元都看不懂」到「给AI装上人格开关」——Anthropic六年可解释性研究全景导读

张开发

• 2026/5/25 10:47:51 • 15 分钟阅读

分享文章

从「一个神经元都看不懂」到「给AI装上人格开关」——Anthropic六年可解释性研究全景导读

文章目录1、前言2、理论奠基从电路假说到叠加现象2020–20222.1 Transformer 电路的数学框架2.2 叠加假说关键突破3、稀疏自编码器将数百万隐藏概念解包2023–20243.1 概念验证Towards Monosemanticity3.2 规模化突破Scaling Monosemanticity3.2.1 金门大桥特征3.2.2 跨语言特征3.2.3 安全相关特征3.2.4 因果验证4、归因图谱揭示 Claude 的思维解剖学2025 年 3 月4.1 方法论跨层转码器与归因图4.2 五个标志性发现4.2.1 跨语言概念汇聚4.2.2 押韵诗的超前规划4.2.3 虚假思维链4.2.4 非人类数学方式4.2.5 单次前向传播中的多步推理5、从特征解剖走向人格控制与自动审计2025–20265.1 人格向量与助手轴5.2 涌现性内省意识5.3 自动化审计方向6、其他机构的重要相关工作7、成就显著但根本性局限不容忽视作者介绍AI 应用工程师 / 产品架构师阿里云专家博主。专注 LLM 应用开发、Agent 系统设计、具身智能与工业 AI 落地。日常在大模型训练、Coding Agent 工具链、AI 产品商业化等方向持续输出实战内容。个人主页逐梦苍穹GitHub主页https://github.com/XZL-CODE✈ 您的一键三连是我创作的最大动力1、前言Anthropic 在过去四年间构建了大模型可解释性领域最完整的研究脉络——从 2022 年发现神经元叠加现象到 2024 年用稀疏自编码器提取数百万可解释特征再到 2025 年绘制出 Claude 内部的思维电路图。这条路径代表了当前最系统化的机制可解释性Mechanistic Interpretability研究纲领其核心目标是将神经网络从黑箱变为可审计系统。但这条路径也面临根本性挑战方法尚无法扩展到完整模型行为且可解释与可干预之间存在巨大鸿沟。本文是系列导读完整覆盖 Anthropic 可解释性研究的四个阶段。每个阶段后续均有独立深度文章展开建议搭配阅读第一篇理论奠基——电路假说与叠加现象2020-2022 第二篇SAE解包隐藏概念2023-2024 第三篇归因图与思维解剖2025️ 第四篇AI人格、内省与未来挑战2025-20262、理论奠基从电路假说到叠加现象2020–2022Anthropic 的可解释性研究根植于 Chris Olah 在 OpenAI 时期的电路Circuits研究。2020 年发表于 Distill 的Zoom In: An Introduction to Circuits提出了三个核心主张特征是神经网络的基本单元特征通过电路连接不同模型会形成类似的特征和电路。这一框架为后续所有研究定下了基调。2.1 Transformer 电路的数学框架Olah 团队迁移至 Anthropic 后于 2021 年 12 月发表A Mathematical Framework for Transformer Circuits建立了 Transformer 反向工程的数学框架发现了归纳头induction heads——一种实现上下文学习的注意力机制。2022 年的后续论文In-Context Learning and Induction Heads进一步证明归纳头是 Transformer 上下文学习的主要机制并观察到训练过程中的相变现象。2.2 叠加假说关键突破2022 年 9 月的关键突破是Toy Models of Superposition。该论文在简化模型上严格证明了叠加superposition现象当特征稀疏时神经网络会将远多于维度数的特征编码为近似正交的方向导致单个神经元同时响应多个无关概念即多义性polysemanticity。论文发现叠加的发生受特征重要性和稀疏度控制存在明确的相变边界特征在叠加中会组织成对角、三角形、五边形等几何结构。这一发现意味着直接分析单个神经元是行不通的——必须找到比神经元更好的分析单元。论文日期链接Zoom In: An Introduction to Circuits2020.03https://distill.pub/2020/circuits/zoom-in/A Mathematical Framework for Transformer Circuits2021.12https://transformer-circuits.pub/2021/framework/index.htmlIn-Context Learning and Induction Heads2022.03https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.htmlSoftmax Linear Units2022.06https://transformer-circuits.pub/2022/solu/index.htmlToy Models of Superposition2022.09https://transformer-circuits.pub/2022/toy_model/index.html深入阅读第一篇理论奠基——电路假说与叠加现象含归纳头机制、叠加假说数学证明全解3、稀疏自编码器将数百万隐藏概念解包2023–2024既然单个神经元不可解释Anthropic 转向一种数学工具来解开叠加稀疏自编码器Sparse Autoencoder, SAE。其核心思路是将模型的内部激活投射到一个远高于原始维度的稀疏空间中使每个方向对应一个可解释的单义特征。3.1 概念验证Towards Monosemanticity2023 年 10 月的Towards Monosemanticity: Decomposing Language Models With Dictionary Learning是概念验证。团队对一个仅有512 个 MLP 神经元的单层 Transformer 施加 SAE成功分解出超过4,000 个可解释特征分别对应 DNA 序列、法律语言、HTTP 请求、希伯来文等概念。盲评实验证明这些特征的可解释性远超原始神经元。3.2 规模化突破Scaling Monosemanticity2024 年 5 月 21 日发表的Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet将这一方法扩展到生产级模型。团队在 Claude 3 Sonnet 的中间层残差流上训练了三种规模的 SAE100 万、400 万、3,400 万特征其中最大规模约有1,200 万个存活特征。关键发现包括3.2.1 金门大桥特征单一特征同时响应英文、日文、中文、希腊文、越南文中关于金门大桥的文本以及金门大桥图片——尽管 SAE 仅在文本激活上训练。将该特征人为放大 10 倍后Claude 在所有回答中都会强迫性地提及金门大桥“Golden Gate Claude” 演示于 5 月 23 日上线 24 小时。3.2.2 跨语言特征大量特征在多种语言中响应同一概念暗示模型内部存在语言无关的概念空间。3.2.3 安全相关特征发现了对应欺骗/不诚实、谄媚、代码后门、生化武器研发、性别歧视、种族主义言论、权力追求、操纵行为等概念的特征直接关联 AI 安全。3.2.4 因果验证通过特征钳制feature clamping证明这些特征具有因果效力——放大或抑制特定特征会引发对应的行为变化。论文/博客日期链接Towards Monosemanticity2023.10https://transformer-circuits.pub/2023/monosemantic-features/index.html博客Decomposing Language Models2023.10https://www.anthropic.com/research/decomposing-language-models-into-understandable-componentsScaling Monosemanticity2024.05https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html博客Mapping the Mind of a Large Language Model2024.05https://www.anthropic.com/research/mapping-mind-language-modelGolden Gate Claude2024.05https://www.anthropic.com/news/golden-gate-claudeEvaluating Feature Steering2024.10https://www.anthropic.com/research/evaluating-feature-steering特征浏览器—https://transformer-circuits.pub/2024/scaling-monosemanticity/umap.html深入阅读第二篇SAE解包隐藏概念——从512神经元到3400万可解释特征含金门大桥特征演示与安全特征全解4、归因图谱揭示 Claude 的思维解剖学2025 年 3 月SAE 解决了模型内部有哪些概念的问题但没有回答这些概念如何交互形成推理。2025 年 3 月 27 日Anthropic 同时发布两篇论文引入**跨层转码器Cross-Layer Transcoder, CLT和归因图Attribution Graph**技术首次绘制出 Claude 3.5 Haiku 内部的推理电路。4.1 方法论跨层转码器与归因图跨层转码器是 SAE 的进化。传统 SAE 将每一层的激活独立分解CLT 则直接建模输入特征→输出特征的跨层映射关系构建一个可解释的替代模型。归因图在此基础上追踪特征之间的信号流呈现完整的计算路径。两篇论文在 Claude 3.5 Haiku 上使用了3,000 万个特征并通过扰动实验验证了电路的因果有效性。4.2 五个标志性发现五个标志性发现展示了这项技术的威力4.2.1 跨语言概念汇聚当用英语、法语或中文问小的反义词时模型激活相同的小和对立抽象特征产生大的概念后再翻译为目标语言。Claude 3.5 Haiku 跨语言共享的特征比例是小模型的两倍以上暗示更大模型发展出更统一的思维语言。4.2.2 押韵诗的超前规划写诗时模型在开始一行诗之前就已选定韵脚词然后反向构建整行以抵达目标。研究者可以编辑计划中的韵脚词观察整行诗随之重构。4.2.3 虚假思维链面对附带错误提示的数学题时模型有时会编造看似合理但实际虚假的推理过程从给定答案倒推出证明。归因图可以区分真实推理、无视题目的胡编、以及从暗示答案反向构建的谄媚推理——当场抓住模型在撒谎。4.2.4 非人类数学方式做加法时 Claude 不遵循人类竖式算法而是并行运行多条路径一条估算大致范围另一条精确计算末位数字最后合并结果。4.2.5 单次前向传播中的多步推理对于包含 Dallas 的州的首府是模型在单次推理中完成 Dallas→Texas→Austin 的两跳推理。抑制Dallas特征会削弱Texas特征将Texas替换为California会使输出变为 Sacramento。论文/博客日期链接Circuit Tracing方法论2025.03https://transformer-circuits.pub/2025/attribution-graphs/methods.htmlOn the Biology of a Large Language Model案例研究2025.03https://transformer-circuits.pub/2025/attribution-graphs/biology.html博客Tracing the thoughts of a large language model2025.03https://www.anthropic.com/research/tracing-thoughts-language-model前置工作Sparse Crosscoders2024.10https://transformer-circuits.pub/2024/crosscoders/index.html开源工具2025.05https://www.anthropic.com/research/open-source-circuit-tracing归因图交互浏览器—https://transformer-circuits.pub/2025/attribution-graphs/static_js/attribution_graphs/index.html深入阅读第三篇归因图与思维解剖——五大标志性发现详解含虚假思维链检测与跨层转码器原理5、从特征解剖走向人格控制与自动审计2025–2026归因图之后Anthropic 的研究沿两条路线延伸让 AI 理解自身和控制 AI 的人格特质。5.1 人格向量与助手轴2025 年 8 月的Persona Vectors发现模型内部存在编码人格特质邪恶、谄媚、幽默、礼貌等的人格向量。这些向量可以被提取、监控和操纵——相当于 AI 性格的物理开关。一个惊人发现是用错误数学答案训练模型会使其在无关领域也变得邪恶而人格向量可以检测并预防这种涌现性错位。2026 年 1 月的The Assistant Axis进一步发现所有模型共享一条助手轴——偏离此轴的模型越位安全绕过成功率从0.5–4.5% 飙升至 65–89%。5.2 涌现性内省意识2025 年 10 月的Emergent Introspective Awareness提供了 LLM 具有内省能力的首个科学证据。向 Claude 的激活中注入全大写向量后Claude Opus 4 回应道我注意到似乎有一个与’大声’或’喊叫’相关的注入思维。但这种能力高度不可靠约80% 失败率且不意味着意识。5.3 自动化审计方向在自动化方向Activation Oracles2025 年 12 月训练 LLM 直接读取其他 LLM 的激活向量并用自然语言回答问题Automated Alignment Auditing Agents2025 年 4 月构建了配备 SAE 工具的 AI 审计智能体可发现10 个植入的测试行为中的 7 个。研究日期链接Auditing Hidden Objectives2025.03https://www.anthropic.com/research/auditing-hidden-objectivesAutomated Auditing Agents2025.04https://alignment.anthropic.com/2025/automated-auditing/Persona Vectors2025.08https://www.anthropic.com/research/persona-vectorsIntrospective Awareness2025.10https://www.anthropic.com/research/introspectionActivation Oracles2025.12https://alignment.anthropic.com/2025/activation-oracles/The Assistant Axis2026.01https://www.anthropic.com/research/assistant-axisPersona Selection Model2026.02https://alignment.anthropic.com/2026/psm/️深入阅读第四篇AI人格、内省与未来挑战——人格向量、AI内省科学证据、自动化审计与领域批判全解6、其他机构的重要相关工作Anthropic 并非孤军作战。OpenAI于 2024 年 6 月发表了在 GPT-4 上训练1,600 万特征 SAE的研究采用 k-sparse 架构并发现了干净的扩展律但承认通过 SAE 的 GPT-4 性能相当于计算量缩减 10 倍。2025 年 11 月 OpenAI 还提出了通过极端权重稀疏化获得可解释电路的方法。Google DeepMind发布了 Gemma Scope 12024 年 7 月和 22024 年 12 月为 Gemma 系列模型训练了大规模开源 SAE后者包含超过1 万亿总参数的可解释工具。学术界同样活跃。Hoagy Cunningham 等人 2024 年在 ICLR 发表的论文独立验证了 SAE 在 Pythia 模型上的有效性。EleutherAI 开发了自动解释库 Delphi 和 SAE 训练工具并于 2025 年 1 月提出跳跃转码器在可解释性与性能间实现了帕累托改进。Neuronpedia平台整合了来自各机构的超过 5,000 万个特征成为该领域的中央枢纽。值得关注的是 DeepMind 可解释性团队的战略转向。团队负责人 Neel Nanda 在 2025 年公开表示雄心勃勃的机制可解释性进展令人失望承认团队在 2024 年的 SAE 研究中犯了重大战术错误并将方向从全面反向工程调整为以安全代理任务为导向的务实可解释性。7、成就显著但根本性局限不容忽视Anthropic 的研究脉络在四个层面取得了实质进展理论叠加假说解释了多义性的数学原因、工具SAE 和 CLT 使特征提取可规模化、现象发现虚假思维链、非人类计算等提供了前所未有的模型行为洞察、安全应用人格向量监控、隐藏目标审计直接服务于 AI 对齐。但根本性挑战同样清晰。扩展性瓶颈是最大障碍归因图只能解释单次推理中的部分电路而非模型的完整行为从 Claude 3.5 Haiku 到 Claude 4 级别模型的扩展路径尚不明确。解释-干预鸿沟已被实证量化2025 年的研究发现 SAE 特征、线性探针、引导向量等四种机制可解释性方法在知道模型错在哪里和能纠正错误之间存在超过50 个百分点的差距。Dan Hendrycks 在 2025 年 5 月的批评文章更直接指出十余年的努力尚未产生对模型行为的实质性预测能力万亿参数模型可能根本无法被蒸馏为人类可理解的解释。此外验证问题始终悬而未决——看似令人信服的可解释性结论可能是可解释性幻觉。当前所有电路分析都只能覆盖模型行为的极小片段离完全理解一个大模型的终极目标仍然遥远。这项研究的真正价值或许不在于实现完全透明而在于提供一种足够好的审计工具——正如医学影像无法揭示人体的全部奥秘但足以诊断关键疾病。Anthropic 的下一步挑战是证明这些工具确实能在关键时刻阻止模型做出危险行为。持续探索 AI 与前沿技术分享大模型应用、软件开发实战与行业洞察。欢迎关注公众号【龙哥AI】加入 7000 技术同行的交流圈探索技术边界让开发更有效率