Mamba

受到Transformer选择性关注的影响, 对SSM的改进.

Motivate: SSM无法根据输入的信息选择性的处理信息(state)

但是会破坏并行计算的优点, 因此提出了一个新的方法: Parallel Scan算法, 能够比串行计算更快

Methods

Selective SSM

首先计算步长

  1. 将input 映射到一个很小的维度, 得到
  2. 将低维的使用broadcast拓展到原始input的维度: . 一个简单的方法是直接复制. 也可以使用线性变换的方式.
  3. 计算步长, 其中softplus指的是, 是一个可学习的参数

然后, 根据步长计算得到输出:

  1. 根据输入得到hidden state:
  2. 计算输出层

这里的只是一个gate的开关, 在公式的哪个位置使用这个开关是Model相关的内容, 和Selection部分没有关系