Mamba

1 · HikariLi · March 11, 2024, 11:55 a.m.
Summary
1 IntroductionMamba是一次用状态空间模型来做深度学习的Foundation Model的尝试,原论文是《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》,arXiv: 2312.00752. 2 前置知识:状态空间模型 2.1 连续情况状态空间模型在控制系统中常见,其目的是建立一个输入到中间状态(latent state)再到输出的关系。假设输入的信号是u(t)u(t)u(t),中间状态是x(t)x(t)x(t),输出为y(t)y(t)y(t),那么状态空间模型可由两个方程表示{x′(t)=Ax(t)+Bu(t)y(t)=Cx(t)+Du(t)\begin{cases}x'(t) = Ax(t) + Bu(t) \\y(t) = Cx(t) + Du(t)\end{cases}{x′(t)=Ax(t)+Bu(t)y(t)=Cx(t)+Du(t)​方程1是一个关于中间变量和输入信号的微分方程,可以解出x(t)x(t)x(t),可以看作对状态之间和输入的建模,方程2则建立了输出,状态和输入...