Preliminaries

$L = 2^{n} + 1$ : 当FSQ将一个连续数值映射到 $[- 1, 1]$ 区间内 $L = 2^{n} + 1$ 个等距点上时(如, $L = 3 : {- 1, 0, 1}$ , $L = 5 : {- 1, - 0.5, 0, 0.5, 1}$ ), 相当于是在上一层的两个相邻点之间插入一个新的中点, 保证了低精度层级( $L$ 更小的层级)永远是高精度层级( $L$ 更大的层级)的子集

因此, 可以把低精度的层级(小 $L$ )当作粗糙的quantize的结果, 然后基于这个结果进行进一步的refine, 得到高精度的结果(大 $L$ )

Methods

RFSQ

使用FSQ模仿RVQ的残差方法.

首先定义 $Q_{L} (x)$ , 将任何实数映射到离散的 $L$ 个点上:

Q_{L} (x) = \frac{2}{L - 1} ⌊ (L - 1) \frac{tanh ( x ) + 1}{2} + \frac{1}{2} ⌋ - 1

其中:

$x$ 是action, 是一个连续数值
$L$ 是量化层级的总数
使用 $\frac{2}{L - 1}$ 和最后的 $- 1$ 的原因是维持量化范围在 $[- 1, 1]$ 之间

为了让FSQ像RVQ一样使用残差工作, 需要定义一个随层数 $k$ 变化的残差量化器:

κ_{k} (z) = \frac{Q _{2^{n} + 1} (( 2 ^{n} ) ^{k} z )}{( 2 ^{n} ) ^{k}}

其中:

$n$ 是一个固定值, 表示精度
$(2^{n})^{k}$ 的目的是为了放大误差. 这里精度放大的方法是, 将每一层的误差放大(如, 最开始误差为2, 然后残差的误差为0.1, 经过一次放大可能就会变成1.6这种( $n = 4, k = 1$ ))
经过放大之后的残差quantize需要重新缩放会原来的数值大小, 因此需要把 $(2^{n})^{k}$ 除掉

然后使用类似RVQ的方法进行残差累加:

q_{0} q_{k} \overset{z}{^} = κ_{0} (z) = κ_{k} (z - i = 0 \sum k - 1 q_{i}) = k = 0 \sum K q_{i}

TAAE

首先经过Encoder, 每一层是一个downsampling的CNN加上多个self-attention的block组成的.

Knowledge Base

Explorer

2411.19842

Preliminaries

Methods

RFSQ

TAAE

Graph View

Table of Contents

Backlinks