Consistency Policy

Paper

对于diffusion而言, 可能需要多步推导, 并且中间的过程是随机的(相同的input, 随机的noise, 可能导致不同的result)

因此提出consistency policy with Q-learning(CPQL), 将多步diffusion的过程压缩成一步

Diffusion Policy for Offline RL

define MDP: $S, A, P, r, γ$

假设expert dataset $D = {(s, a, s^{'}, r)}$ , 其action的distribution可以表示为 $μ (a ∣ s)$ . 学习一个policy $π$ , 为了泛化OOD action, 有objective:

J (π) = E_{s_{t} \sim D} [E_{a_{t} \sim π (a ∣ s_{t})} [Q (s_{t}, a_{t})] - λ D_{KL} (π ∥ μ)]

目的是让学习到的policy尽可能接近数据集的action distribution $μ$ , 减小distribution shift

π^{*} (a ∣ s) \propto μ (a ∣ s) exp (\frac{1}{λ} Q (s, a))

使用stochastic differential equation(SDE, 随机微分方程)进行diffusion:

d a^{k} = μ (a^{k}, k) d k + σ (k) d w^{k}

其中:

从噪声 $x^{K}$ 开始, 使用probability flow(PF) ordinary differential equation(ODE)去恢复原始数据 $x^{0}$ :