2210.02747

paper

快速理解

按照物理的运动学理解加噪去噪的过程.

假设原始的状态是 $x_{1}$ , 加噪之后完全噪声为 $x_{0}$ . 假设加噪的过程是一个直线运动的过程: $x_{t} = a (t) x_{0} + b (t) x_{1}$ , 则在加噪过程中的速度为 $v_{t} = \frac{d x _{t}}{d t} = a^{'} (t) x_{0} + b^{'} (t) x_{1}$ .

如果已知完全噪声 $x_{0}$ , 同时知道每时每刻的速度 $v_{t}$ , 那么可以通过物理学的运动方程反向推算 $x_{1}$ . 此为去噪过程. 但是注意, 这个去噪过程是一个非直线的过程.

为了取求速度 $v_{t}$ , 使用神经网络去拟合 $v_{t}$ , 使用MSE loss进行监督: $∥ u_{t} - v_{t} ∥_{2}^{2}$ . 如此可以得到最终的结果.

小问题:

这里使用的是从 $x_{0} \to x_{1}$ 的过程, 能否代表分布 $p_{0} \to p_{1}$ 的过程?

回答: 可以. 最终证明使用连续性方程进行证明, 可以从点到点的去噪拓展到分布到分布的过程

这里的 $v_{t}$ 实际上是基于 $x_{1}$ 的过程, 需要写成 $v_{t} (x_{t} ∣ x_{1})$ , 也就是说需要已知起点和终点才能计算速度. 在推理的时候无法得知终点 $x_{1}$ , 还能这么用吗?

回答: 可以. 仍然是根据连续性方程和loss的公式, 最终数学形式上证明loss没有问题.

基于Conditional Normalizing Flows进行改进.

这个仍然属于Diffusion模型中的一种, 加噪和去噪的过程.

2210.02747v2, p.2

PRELIMINARIES: CONTINUOUS NORMALIZING FLOWS

连续归一化流

注意此处的CNF并不是最终FM的形式. 这个只是CNF的表达

此处的 “流” 指的是加噪的过程: $ϕ_{t} (x) = a (t) x_{0} + b (t) x_{1}$

速度 $v$ 即为加噪的速度, 将噪声减去加噪的速度来达成去噪的效果. 速度即为flow的微分: $\frac{d}{d t} ϕ_{t} (x) = v_{t} (ϕ_{t} (x))$

概率路径 $p_{t}, p_{0}$ : 表示最终的一个分布. 其中 $p_{0}$ 可以认为是一个加噪的终点(去噪的起点), 可以是一个简单的高斯噪声: $p_{0} (x) = N (x ∣ μ (x_{0}), σ (x_{0})^{2} I)$

使用CNF的去噪可以表示为:
$p_{t} = [ϕ_{t}] * p_{0}$
定义push-forward算子 $*$ :
$[ϕ_{t}] * p_{0} (x) = p_{0} (ϕ_{t}^{- 1} (x)) det [\frac{\partial ϕ _{t}^{- 1}}{\partial x} (x)]$

2210.02747v2, p.2

Let $x_{1}$ denote a random variable distributed according to some unknown data distribution $q (x_{1})$ . We assume we only have access to data samples from $q (x_{1})$ but have no access to the density function itself.

假设ground truth的数据分布为 $q (x_{1})$ . 我们无法得知 $q$ 分布的真实数学公式, 只能从这个分布中进行采样, 得到原始的数据 $x_{1}$ .

2210.02747v2, p.2

The Flow Matching objective is then designed to match this target probability path, which will allow us to flow from $p_{0}$ to $p_{1}$ .

假设一个非常简单的分布, 如高斯分布, 作为最初的噪声分布: $p_{0} = N (x ∣0, I)$ , 那么Flow Matching的目的为, 尝试通过找到一个flow, 将 $p_{0}$ 转换为 $p_{1}$ 分布, 让 $p_{1}$ 分布尽可能和 $q (x_{1})$ 分布尽可能相似. 这样就能使用flow从一个简单的高斯噪声分布转换成我们的目标概率密度分布.

2210.02747v2, p.3

Flow Matching (FM) objective

在训练的过程中, Flow Matching并不需要直接使用各种散度(如, KL散度, JS散度等)去对两个分布之间进行loss计算. Flow Matching仍然针对速度进行loss建模, 只需要保证速度尽可能精确, 那么最终的分布一定是接近的.

于是最终的loss为:
$L_{F M} (θ) = E_{t, p_{t} (x)} ∥ v_{t} (x) - u_{t} (x) ∥^{2}$
其中 $u_{t} (x)$ 是神经网络学习到的速度, $v_{t}$ 是真实的速度.

2210.02747v2, p.3

it is intractable to use in practice

但是实际上, 由于在真实环境中没有一个合适的先验知识去给定 $p_{t}$ 和 $u_{t}$ , 此时有无数多种概率路径令 $p_{1} (x) = q (x)$ .

同时, 由于无法获取速度 $u_{t} (x)$ 的闭式解, 这个loss function无法在真实环境中使用

2210.02747v2, p.3

simple way

考虑更简单的情况: 采样一个点 $x_{1} \sim q (x_{1}), x_{0} \sim N (x ∣0, I)$ , 先只考虑从噪声的一个点到原始分布的一个点的去噪过程.

那么给定原始分布的一个采样 $x_{1}$ , 使用 $p_{t} (x ∣ x_{1})$ 表示在 $x_{1}$ 作为条件下的概率分布. 在时间步 $t = 0$ 时有噪声 $p_{0} (x ∣ x_{1}) = p (x)$ , 最终的去噪结果被设计为 $p_{1} (x ∣ x_{1}) = N (x ∣ x_{1}, σ^{2} I)$ (一个均值为 $x_{1}$ 且标准差 $σ > 0$ 足够小的正态分布, 至于为什么这么设计, 可以看下面的marginal probability的计算)

计算边缘概率路径:
$p_{t} (x) = \int p_{t} (x ∣ x_{1}) q (x_{q}) d x_{1}$
当时间步 $t = 1$ 的时候, 计算结果为:
$p_{1} (x) = \int N (x ∣ x_{1}, σ^{2} I) q (x_{1}) d x_{1} \approx q (x)$
是原始的概率分布

相似的, 可以使用条件概率去定义速度:
$u_{t} (x) = \int u_{t} (x ∣ x_{1}) \frac{p _{t} ( x ∣ x _{1} ) q ( x _{1} )}{p _{t} ( x )} d x_{1}$
其中 $u_{t} (x ∣ x_{1})$ 用于生成 $p_{t} (x ∣ x_{1})$

连续性方程的证明

2210.02747v2, p.3

证明了 $u_{t}$ 和 $p_{t}$ 满足连续性方程, 因此可以使用条件概率分布去生成flow

2210.02747v2, p.4

intractable to naively compute an unbiased estimator of the original Flow Matching objective.

但是使用这个边缘概率路径仍然无法计算loss, 因为积分在此处是无法计算的(因为路径太多).

2210.02747v2, p.4

Conditional Flow Matching (CFM) objective

因此, 提出了Conditional Flow Matching的目标loss:
$L_{C F M} (θ) = E_{t, q (x_{1}), p (x ∣ x_{1})} ∥ v_{t} (x) - u_{t} (x ∣ x_{1}) ∥^{2}$
使用conditional的速度来代替marginal的速度.

依照定理2, 优化CFM(Conditional Flow Matching)在期望上等同于优化FM(Flow Matching)

由于最终的分布和初始的分布都是高斯分布, 因此讨论中介的条件概率密度为一般高斯分布的过程:

2210.02747v2, p.4

Namely, we consider conditional probability paths of the form

$p_{t} (x ∣ x_{1}) = N (x ∣ μ_{t} (x_{1}), σ_{t} (x_{1})^{2} I$
其中 $μ_{t}$ 和 $σ_{t}$ 都是与时间相关的函数.

当t=0的时候, 令 $μ_{0} (x_{1}) = 0, σ_{0} (x_{1}) = 1$ , 成为一个标准的正态分布; 当t=1的时候, 令 $μ_{1} (x_{1}) = x_{1}, σ_{1} (x_{1}) = σ_{min}$

2210.02747v2, p.4

There is an infinite number of vector fields that generate any particular probability path (e.g., by adding a divergence free component to the continuity equation, see equation 26), but the vast majority of these is due to the presence of components that leave the underlying distribution invariant—for instance, rotational components when the distribution is rotation-invariant—leading to unnecessary extra compute. We decide to use the simplest vector field corresponding to a canonical transformation for Gaussian distributions. Specifically, consider the flow (conditioned on $x_{1}$ )

实际上, 有非常多种不同的路径从高斯分布到原始数据分布. 为了防止不必要的计算, 在此处Flow Matching 选择了最简单的一种: 使用高斯分布的正则变换对应的速度(向量场):
$ψ_{t} (x) = σ_{t} (x_{1}) x + μ_{t} (x_{1})$
如果输入的 $x$ 也服从正态分布(高斯分布), 那么 $ψ_{t}$ 就是一个仿射变换, 将其映射到一个均值为 $μ_{t} (x_{1})$ , 标准差为 $σ_{t} (x_{1})$ 的正态分布中, 即:
$[ψ_{t}] * p_{0} (x ∣ x_{1}) = p_{t} (x ∣ x_{1})$
同时, 其速度向量场为
$\frac{d}{d t} ψ_{t} (x) = u_{t} (ψ_{t} (x) ∣ x_{1})$
代入CFM objective function中, 有
$L_{C F M} (θ) = ∥ v_{t} (ψ_{t} (x_{0})) - \frac{d}{d t} ψ_{t} (x_{0}) ∥^{2}$
由于 $ψ_{t}$ 是一个简单的仿射变换, 因此求 $\frac{d}{d t} ψ_{t}$ 比较简单, 因此可以求解闭式解

2210.02747v2, p.5

Theorem 3

根据这个定理, 我们可以将 $u_{t} (x ∣ x_{1})$ 转换成与高斯分布的参数相关的函数:
$u_{t} (x ∣ x_{1}) = \frac{σ _{t}^{'} ( x _{1} )}{σ _{t} ( x _{1} )} (x - μ_{t} (x_{1})) + μ_{t}^{'} (x_{1})$

现在已经有了最终的loss函数, 并且将速度进行了拆分, 只和高斯噪声参数的时间函数有关. 接下来尝试对参数时间函数进行建模.

有两种思路进行建模:

2210.02747v2, p.5

Diffusion conditional VFs.

使用Diffusion的思路对向量场建模.

根据Diffusion的相关推导, 最终获取向量场的函数为:
$u_{t} (x ∣ x_{1}) = \frac{α _{1 - t}^{'}}{1 - α _{1 - t}^{2}} (α_{1 - t} x - x_{1}) = - \frac{T ^{'} ( 1 - t )}{2} [\frac{e ^{- T (1 - t)} x - e ^{- \frac{1}{2} T (1 - t)} x _{1}}{1 - e ^{- T (1 - t)}}]$

2210.02747v2, p.5

Optimal Transport conditional VFs

OT路径(最优传输条件向量场)

直接假设 $μ_{t} (x) = t x_{1}, σ_{t} (x) = 1 - (1 - σ_{min}) t$

因此最终的速度场为:
$u_{t} (x ∣ x_{1}) = \frac{x _{1} - ( 1 - σ _{min} ) x}{1 - ( 1 - σ _{σ_{min}} ) t}$

根据实验可知, OT路径有更高的速度, 并且能避免Diffusion路径的一些问题(如overshoot). 因此直接无脑使用OT即可.

速度更快的原因的猜测

可能是因为OT路径学习的是多个直线的去噪, diffusion本身去尝试拟合一条曲线. 因此OT的ODE更加平滑, 使用NFE(Number of Function Evaluation)次数更少

同时OT的向量场更加简单, 因此有更加快的训练速度

最终使用OT的flow:

ψ_{t} (x) = (1 - (1 - σ_{min}) t) x + t x_{1}

CFM objective function:

L_{C F M} (θ) = E_{t, q (x_{1}), p (x_{0})} ∥ v_{t} (ψ_{t} (x_{0}) - (x_{1} - (1 - σ_{min}) x_{0}) ∥^{2}

因此, 对于概率分布的概率路径可以写成:

p_{t} = [(1 - t) id + t ψ] * p_{0}

其中:

$id$ 表示一个恒等变换
$ψ$ 是OT映射, 将 $p_{0}$ push-forward 到 $p_{1}$

Knowledge Base

Explorer

2210.02747

Graph View

Backlinks