Preserving and combining knowledge in robotic lifelong reinforcement learning

Introduce

机器人终身学习

基于深度学习的方法, 平衡神经网络的稳定性和可塑性, 这种情况下一个常见的问题是灾难性遗忘. 可以使用正则化, 结构模块化和经验回放, 但是更多应用于传统机器学习

在deep learning for reinforcement learning中, 常见的方法是通过多任务强化学习(MTRL). 在MTRL中, agent可以同时访问多个任务, 避免了神经网络固有的以往问题. 但是也有问题, 依赖与预定义的任务范围, 对zero-shot样本难以泛化.

受到Dirichlet过程混合模型(Dirichlet process mixture model, DPMM)的启发, 结合记忆变分贝叶斯推断模型(memorized variational Bayes inference method, memoVB), 在upstream level实现了simultaneous inference和asynchronous knowledge preservation.

Method

可以continuously gain knowledge from a steam of a one-time feeding tasks.

upstream module包含:

  • pretrained language embedding
  • task encoder
  • DPMM
  • generative module 训练过程: offline
  1. LLM结合语音识别 pre-encoded Language Embeddings. 这一步通过消除计算密集型的实时编码来加速训练
  2. task state observation(包含end-effector位置, objects的位置, goals的位置)与Language Embeddings结合, 送给task inference encoder
  3. 生成的inference result使用DPMM与knowledge space进行拟合(fit). 来自同一个任务的inferred result被clustered并储存在DPMM的相同component中. 如果是新的样本, 创建一个新的component来储存. 知识保存:
    1. 使用task encoder得到的更新DPMM参数.
    2. 固定DPMM参数, 更新task encoder:
      1. reconstruct loss: with
      2. KL divergence: task encoder distribution with DPMM knowledge component
  4. generative module重建language embeddings并预测当前任务的动态函数, 使得upstream和downstream之间可以解耦参数更新
    1. 作为输入, 重建language embeddings tokens, 与原始language embeddings token做reconstruction loss
    2. 使用当前observed state, action, 进行对下一步state预测, 与真实执行(simulate)后的结果做reconstruction loss
  5. downstream中使用SAC作为策略学习模块, critics计算, actor提供action

在deployment(inference)过程中, 使用online encode方法. 使用Sim2Real和Real2Sim, 这两个模块包括安全控制检查, Sim和Real world坐标系转换, 手眼校准, 相机偏移设置.

Non-parametric knowledge space

Dirichlet process mixture model

假设为random probability measure, 是base probability distribution基于参数空间, 是concentration parameter.

认为是Dirichlet过程中采样得到, 记作. 使用stick-breaking方法进行从中sample

DPMM用于capture infinite mixture of clusters, 从observation . DPMM的组件并没有固定, 而是online的方式去确定.

DPMM中, 认为每一个数据点, 其中是从先验中独立采样的latent variable, 并通过允许重复来引入discreteness和clustering properties. 因此, 使用相同的绘制的data points自然形成一个聚类.

fit过程中, 为了data point分配给一个cluster, 把data point 和变量关联. 通过来sample得到. 其中混合比例也可以等价表示为从广义的Ewens分布(GEM)中sample.

总而言之, DPMM可以写作:

Variational Inference

使用变分推断来估计真实posterior. DPMM的分布可表示为:

其中是stick-breaking过程, 是对应的随机变量.

使用ELBO方法求近似后验:

基于变分概念和mean-field assumption, 定义的variational distribution:

其中, 是含有变分参数分类因子, 是含参数的stick-breaking比例因子, 是含有参数的base distribution因子.

为了模拟较为精确的后验概率, 使用一个足够大的以包含所有potential features, 则ELBO为:

需要完整的数据集. 对于大型dataset, 使用memoVB的方法进行批处理.

Parametrics Modules

Language Embedding

human-in-a-loop的方式指导embodied agent完成real-world tasks.

使用RoBERTa将side information(语音输入)encode成embeddings

Observation space

包含end-effector的位置(3-dim), object pose(6-dim), goal position(3-dim)

经过encoder之后, 维度提升为768-dim

Action space

4 dimensions. end-effector的移动(单位: m) 和 gripper的开口距离. 每个维度限制在之内

Reward

success的标准是将object放入goal的范围中.

reward分为:

Optimization

使用Adam adapter.

Metrics

average success rate:

forgetting:

forward transfer:

FT=\frac1{N-1}\sum_{i=2}^NFT_i$$表示从早期任务获取的知识有助于提升后续的任务的成功率 Improvement of few-shot knowledge recall: $$f=\frac1{T\times P_\text{max}}\left(\int^{T_j}_{t_j}P(t)dt-\int^{T_i}_{t_i}P(t)dt\right)

表示成功率的最大值, 这里是. 分别表示在training step 的上下界.