LESR

Paper

Introduce

问题: source state repr通常包含general的环境信息, 但是缺少关于当前任务的特定细节信息, 这些信息可能对value network的训练起到重要作用

使用LLM增强state的表达, 获取内在隐藏的表达, 增强value network从state到reward的准确性

提出LLM-Empowered State Representation(LESR), 利用LLM编码能力和对物理世界的解释能力来生成task-related state representation. 然后, LLM利用生成的state repr生成reward函数.

Method

Problem Statement

定义MDP为 $(S, A, R, P, p_{0}, γ)$ , 其中 $P (s^{'} ∣ s, a)$ 是转移函数, $p_{0}$ 是初始状态分布, $γ$ 是discount factor. 目标是学习一个RL policy $π (a ∣ s)$ , 最大化reward expectation: $Q_{π} (s_{t}, a_{t}) = E_{π} [\sum_{t = 0}^{\infty} γ^{t} r_{t} ∣ s_{t}, a_{t}]$

定义Lipschitz constant: 假设数据空间 $X \in R^{d}$ , 标签空间 $Y \in R$ . 有训练数据集 $X_{0} \subset X$ , 其标签为 $Y_{0} = {y_{i} ∣ y_{i} = u (x_{i}), x_{i} \in X_{0}} \subset Y$ , 其中 $x_{i}$ 是基于概率分布 $ρ$ 从 $X_{0}$ 的采样, 函数 $u : X_{0} \subset X \mapsto Y$ 是一个映射Lipschitz constant, 该常数定义为: $ $Lip (u, X_{0}) = sup_{x_{1}, x_{2} \in X_{0}} \frac{∥ u ( x _{1} ) - u ( x _{2} ) ∥ _{2}}{∥ x _{1} - x _{2} ∥ _{2}}$ $

LLM-Empowered Statement Representation

基于LLM嵌入的广泛的知识和先验信息, 使用LLM生成state repr.

prompt输入分成4个部分:

Task Description: 当前任务的描述
State Details: 原始state的每一个维度所代表的含义
Role Instruction: 要求LLM生成任务相关的状态表达和intrinsic reward代码
Feedback: 历史信息

目标是通过LLM生成一个python函数 $F$ , 将原始空间的state( $s_{t}$ )映射到LLM-Empowered state representation( $s_{t}^{τ}$ ) space中. RL训练时, 显式将原始state和LLM-Empowered state拼接( $s_{t}^{c} = (s_{t}, s_{t}^{τ})$ )作为observe variable.

生成 $F$ 之后, 使用LLM基于函数 $F$ 再次生成一个reward function $G$ , 这个reward函数接收拼接后的 $s_{t}^{c}$ , 生成一个reward.

因此, 目标为

F, G max π max E_{F, G, π} [t = 0 \sum \infty γ^{t} (r + w \cdot r^{i}) ∣ r^{i} = G (s_{t}, F (s_{t}))]

Lipschitz Constant for Feedback

Explanation

Lipschitz constant表征一个函数的平滑性. 对于一个函数(映射)而言, 其Lipschitz constant计算方式为:
$Lip (u, X_{0}) = x_{1}, x_{2} \in X_{0} sup \frac{∥ u ( x _{1} ) - u ( x _{2} ) ∥ _{2}}{∥ x _{1} - x _{2} ∥ _{2}}$
需要区分映射和Lipschitz常数.

为了增强状态表示的鲁棒性, 多次迭代query LLM, 包含先前的训练结果作为Feedback. 每个training iteration, 从LLM中采样K个state representation和intrinsic reward function code $F_{k}, G_{k}, k = 1, \dots, K$ . 然后在 $N_{small}$ 时间步中同步进行K个训练, 用于评估 $F_{k}, G_{k}$ .

Continuous Extrinsic Reward Scenarios:

对于一条给定的轨迹 $T_{i} = {s_{t}^{C} [i], r_{t}}_{t = 1}^{H}$ , 其中 $s_{t}^{C} [i]$ 表示 $s_{t}^{C}$ 的第 $i$ 维度
定义针对给定轨迹 $T_{i}$ 的Lipshcitz constant array: $C_{k}^{T} = [Lip (u_{i}; T_{i})]_{i = 1}^{∣ S^{C} ∣}$ 其中, $u_{i}$ 是将 $s^{C} = (s, s^{τ})$ 映射到extrinsic reward(不是上面提到的intrinsic reward)的一个函数. 每一个维度都有一个映射, 一共有 $∣ S^{C} ∣$ 个. 因此 $C_{k}^{T} \in R^{∣ S^{C} ∣}$
使用 $C_{k}^{T}$ 更新全局的 $C_{k}$ : $C_{k} = τ C_{k} + (1 - τ) C_{k}^{T}$
在每一个training iteration结束时, 将 $C_{k}$ 和policy preformance作为Feedback提供给LLM, 根据Feedback调整生成的函数

LESR with Discounted Return:

$u_{i}$ 将 $S^{C}$ 的每一个维度映射到dense extrinsic rewards. 但是对于sparse reward settings, 将这些extrinsic rewards替换成discounted episode return $\sum_{t} γ^{t} r$ .

LESR with Spectral Norm:

使用Lipschitz constant可以降低 $Lip (V, S)$ 的上界, 改善value function的收敛性, 因此使用spectral norm去估计 $Lip (V, S)$ . 通过计算value function的权重 $W_{1}, \dots, W_{N}$ 的spectral norm, 可以近似得出 $Lip (V, S) = \prod_{i = 1}^{N} ∥ W_{i} ∥_{2}$ , 这里的 $∥ \cdot ∥_{2}$ 是spectral norm.

Spectral Norm

谱范数是矩阵最大奇异值, 记为 $∥ A ∥_{2} = sup_{x \neq = 0} \frac{∥ A x ∥ _{2}}{∥ x ∥ _{2}} = λ_{max} (A)$ .

几何意义: 矩阵对于输入向量的最大拉伸程度

Knowledge Base

Explorer

LESR

LESR

Introduce

Method

Problem Statement

LLM-Empowered Statement Representation

Lipschitz Constant for Feedback

Graph View

Table of Contents

Backlinks