ToRL

一个from-scratch的RL训练, 允许模型通过广泛的探索找到最佳的工具利用策略

Dataset

数学奥赛级别的问题

Tool Integrated Reasoning(TIR)

使用TIR取代CoT, 增加精准计算能力

使用tool integrated reasoning可以调用外部程序. TIR的一个trajectory为:

其中, 表示自然语言推理, 表示生成的代码, 表示外部得到的结果. 生成过程表示为:

其中query , 是外部的代码解释器

ToRL

TIR直接与LLM使用RL结合, without prior fine-tuning.

TIR Rollout Framework

使用Qwen2.5-Math作为Transformer LLM backend

当识别到的时候, 会停止输出, 并调用外部程序执行代码, 将结果返回给LLM, 并拼接成, 然后LLM继续生成自然语言

Design Choices of ToRL

Tool Call Frequency Control

防止使用CPU进行执行代码导致GPU空闲时间过长, 设置超参数, 当调用代码次数超过时, 强制使用纯文本推理

Execution Environment Selection

使用Sandbox Fusion, 提供隔离的环境

Error Message Processing

让Sandbox Fusion生成不含有文件的报错信息并只提取最后一行(为了减少上下文长度)

Sandbox Output Masking

计算loss的时候, 屏蔽Sandbox输出(即, )

Reward Design

成功回答问题, reward, 否则, reward

引入基于代码的惩罚: 如果代码不可执行, 则reward