条条电路通罗马:大模型可解释性的唯一机制或许从一开始便不存在
长期以来,机制可解释性(mechanistic interpretability)领域有一个几乎从未被明说、却被视为理所当然的前提:模型对于同一种任务的能力或表现,背后对应着一条唯一的、或近乎唯一的内部「电路」(circuit)。该领域的研究者们之所以要做「电路发现」(circuit discovery),是为了要把这些「特定的」电路找出来。
但一篇被 ICML 2026 接收的新论文给出了一个让人不太舒服的答案:「唯一电路」可能从一开始就不存在。 同一个任务,可以由许多结构上几乎完全不重叠、却有着同样高任务能力、稀疏、完备的电路独立完成。论文把这个被长期默认的前提命名为「功能各向异性假说」(Functional Anisotropy Hypothesis),并从实验与理论两种路径,系统性地把它推翻了。
一个被默认了很久,却从未被言明的假设
近几年,circuit 与 sheaf 发现(Circuit and Sheaf Discovery,简称 CSD)成了机制可解释性(Mechanistic Interpretability)里最热门的方向之一。它的目标很直接:把大模型这个「黑盒」打开,找出模型在表现出某种能力时,内部到底是哪些组件(注意力头、MLP)以及它们之间的哪些连接(作为残差流信息传递通道)在真正起作用。
这里有两个相关但不完全相同的概念。circuit 指的是在干预下因果相关的计算子图;而 DiscoGP 提出的 sheaf,要求更严格:它不仅要因果相关,还必须能在独立运行(被剪枝的边只能传递被全部置零的激活值)时独立支撑起任务表现。
相关资讯
-
07.01
特斯拉Optimus即将量产:人形机器人或成现象级大赛道
-
07.01
OpenAI突然公开o3思维链:网友:让我们谢谢DeepSeek
-
07.01
Git Worktrees入门:Claude Code中多任务隔离方案详解
-
07.01
OpenClaw中3个提效设置实战:自动快模式 自适应思考 定时工作流
-
07.01
完整使用Gemini3指南
-
07.01
智能硬件百团大战:AI驱动的周期来了吗?
游戏推荐
推荐专题
热门阅读
推荐下载
-
-
下载
- 《神剑伏魔录》(神剑风云)游戏音乐合集
- 其他游戏|7.73 MB
- 一款非常好玩的武侠闯关游戏
-
-
下载
- 《行尸走肉第一章》免安装中文汉化硬盘版下载
- 单机|436 MB
- 一款以动作冒险为主题的游戏
-
-
下载
- 《街头霸王X铁拳》免安装中文汉化硬盘版下载
- 单机|111MB
- 一款非常好玩的格斗游戏
-
-
下载
- 《生化危机:浣熊市行动》免安装中文硬盘版下载
- 单机|6310 MB
- 一款以动作射击为主题的游戏
-
-
下载
- 《暗黑破坏神3》免安装繁体中文正式版下载
- 单机|7630 MB
- 一款以角色扮演为主题的游戏
-
-
下载
- 《马克思佩恩3》免安装硬盘版下载
- 单机|27033 MB
- 一款以第三人称射击为主题的游戏