008、新星:状态空间模型(SSM)基础——从经典控制论到结构化状态空间序列模型(S4)
从一次深夜调试说起上周在部署一个实时传感器滤波算法时,我又翻出了那本快散架的《现代控制理论》。凌晨三点,盯着屏幕上不断发散的卡尔曼滤波状态协方差矩阵,我突然意识到——我们总在谈论模型的“状态”,但到底什么才是序列建模中真正有效的状态表示?这个问题,成了我理解SSM系列模型的起点。传统RNN的隐状态像个黑盒子,梯度在长序列里来回震荡;Transformer的自注意力机制虽然强大,但那个O(n²)的复杂度在长序列面前实在让人头疼。就在大家纠结于如何优化Attention时,另一条路线悄悄从控制论领域延伸了出来:状态空间模型(State Space Model, SSM)。这东西不是什么新概念,在控制工程里已经用了半个多世纪,但把它重新打磨成深度学习中的序列建模利器,却是最近几年才开出的花。经典控制论中的状态空间:老树新芽状态空间表示法在控制工程中是用来描述动态系统的标准语言。一个线性时不变系统可以写成:dx/dt = A*x + B*u y = C*x + D*u搞过嵌入式滤波算法的朋友对这套形式应该很熟悉。x是系统状态,u是输入,y是输出,A是状态转移矩阵——它决定了系统内部的动态特性。在连续时间系统中,这个微分方程描述的是系统状态的瞬时变化。离散化后(咱们做数字信号处理的肯定要离散化),形式变成:x_{k} = Ā * x_{k-1} + B̄ * u_{k} y_{k} = C * x_{k