Mamba
Paper
受到Transformer选择性关注的影响, 对SSM的改进.
Motivate: SSM无法根据输入的信息选择性的处理信息(state)
但是会破坏并行计算的优点, 因此提出了一个新的方法: Parallel Scan算法, 能够比串行计算更快
Methods

Selective SSM
首先计算步长
- 将input 映射到一个很小的维度, 得到
- 将低维的使用broadcast拓展到原始input的维度: . 一个简单的方法是直接复制. 也可以使用线性变换的方式.
- 计算步长, 其中
softplus指的是, 是一个可学习的参数
然后, 根据步长计算得到输出:
- 根据输入得到hidden state:
- 计算输出层
这里的只是一个gate的开关, 在公式的哪个位置使用这个开关是Model相关的内容, 和Selection部分没有关系