ToRL

Paper

一个from-scratch的RL训练, 允许模型通过广泛的探索找到最佳的工具利用策略

Dataset

数学奥赛级别的问题

使用TIR取代CoT, 增加精准计算能力

使用tool integrated reasoning可以调用外部程序. TIR的一个trajectory为:

s_{k} = (r_{1}, c_{1}, o_{1}, \dots, r_{k}, c_{k}, o_{k})

其中, $r_{i}$ 表示自然语言推理, $c_{i}$ 表示生成的代码, $o_{i}$ 表示外部 $c_{i}$ 得到的结果. 生成过程表示为:

其中query $q$ , $I$ 是外部的代码解释器

将TIR直接与LLM使用RL结合, without prior fine-tuning.

使用Qwen2.5-Math作为Transformer LLM backend

当识别到 $^{'''} output$ 的时候, 会停止输出, 并调用外部程序执行代码, 将结果 $Observation$ 返回给LLM, 并拼接成 $^{'''} output \ n Observation \ n^{'''}$ , 然后LLM继续生成自然语言

Tool Call Frequency Control

防止使用CPU进行执行代码导致GPU空闲时间过长, 设置超参数 $C$ , 当调用代码次数超过 $C$ 时, 强制使用纯文本推理