Hyper-Connections 扩展因子的冗余性

Hyper-Connections 引入扩展因子 $n$,在每层维护超隐矩阵 $\mathbf{H}^l \in \mathbb{R}^{n \times d}$,更新规则为:

观察:第 $l$ 层的 $\mathbf{H}^l$ 行向量均在子空间 $S_l = \mathrm{span}\{\mathbf{h}^0, \mathcal{T}_1(\cdot), \ldots, \mathcal{T}_l(\cdot)\}$ 中,$\dim(S_l) \leq l+1$。

归纳可得:$\mathbf{H}^0$ 秩为 $1$;每层更新至多引入一个新方向($\mathcal{T}_l$ 的输出),故 $\mathrm{rank}(\mathbf{H}^l) \leq l+1$。

结论:当 $l < n$ 时,超隐矩阵有效秩不足 $n$,多余的行向量线性相关。因此将固定的 $n$ 替换为 $\min(l+1,\, n)$ 不损失任何表达能力。


Hyper-Connections 扩展因子的冗余性
https://childofcuriosity.github.io/2026/05/08/hyper-connections-adaptive-n/
作者
childofcuriosity
发布于
2026年5月8日
许可协议