Part 1

最近搞 rl agent 踩了不少坑,同时回看 Ilya 2018 年对于元学习的 talk,产生了一些新的零散的、可能还不成熟的认知和想法,分享在这里,可以一起探讨。全文较长。

  1. 对 agent 在当前时间节点上的定义

暂且划分为 inference/training time 两类 (测试时/训练时 agent)。

前者的例子如大部分 AI agent 应用、agent workflow (工作流) 等,主要关注于模型、环境与人之间的 orchestration 策略设计,而一般不在模型基座层面做训练操作;后者的例子如 rl agent (operator、deepresearch) 等,主要关注基模训练策略。后者理论上可以涵盖前者,但当前主流观点认为,经过充分训练后的原生 agentic model 对专门的测试时设计的依赖会降低,或在某些场景下不便继续进行测试时设计。这里对测试时 agent 的定义不包括其架构是否一定是人为设计的,这点后面会提到。

  1. 测试时 agent 会不会被训练时 agent 所取代?

这是一个目前业内尚未有明确共识的问题,也是最有争议的问题之一。我个人认为:在我理解的 AGI到来之前,不会。之后我们来解释这里的 AGI 具体指什么。

首先从应用角度看,人为定义的测试时 agent 设计已经有很多成功案例和市场反馈,包括生产力和对大众认知的提升上,尽管他们仍有很多问题,但确实在一定层面上提高了基模的上限,而这个上限,在相对长期的时间跨度上似乎仍然有效 - 即随着基模能力提升,人为定义的测试时设计仍可以在一些任务上提高基模表现。

但这个提高的空间是否会逐渐消失呢?我认为是的。

从学术角度看,人为定义的测试时 agent 的最大助力之一是在 (冷启动) 数据的构造上,而这也可能是当前阶段在数据相对匮乏时最高效获取多样性、高质量数据的一类方式。“最高效”指的是从数据多样性、数据质量和构造速率三方面的综合考量。于是,我们有很多工作尝试让模型自主化进行对测试时agent 的设计,但对其设计的根本 (atomic actions/env) 通常还是无法离开人的帮助,最终其实是在人的比例和上述三方面做取舍,带来不同 robust/stable 程度的基模能力提升。

此处也引出我对 AGI 的一种理解,在我看来,这是指模型已经足够强大,能够自主地生成或内化那些测试时人为设计的策略与反馈机制,使人为干预逐渐变得冗余或失效。这意味着模型内化的环境 (即“世界模型”) 和真实环境达到了高度一致。然而,当前阶段难以直接优化这种内化目标,最主要的困难来自环境和评估标准的不完善。

  1. 环境与评估 (reward)

笔者在大模型时代才开始接触 RL,对其理解比较初级,希望大家多多批评指正~

在 Ilya 的 talk 中提到:

one thing that is not perfect of rl is that it assumes the reward is given by the environment, whereas we figure the reward based on the observation - we reward ourselves.

通俗来讲,我们作为人类对于环境的理解实际上是内化的 - 环境不会主动给我们奖励,而是我们根据环境反馈决定如何奖励自己。从学术角度看,这类似于“我自己就是自己的 reward model”,而 RL 中模型的 reward 是另一个个体或环境直接给定的,这种 reward 可以分别对应人的反馈或人为定义的环境反馈(例如数学题的正确答案,代码的单元测试等)。前者(人的反馈)衍生了很多工作,例如通过设计能够自主提供 reward 的模型来减少人类参与,提高模型训练效率,这类工作典型如 RLHF;后者(环境反馈)也出现了不少研究,通过设计自主提供 critic(评估)的模型来减少人工干预,这种方式成功地在一些特定任务(如数学与代码推理)中被内化到模型自身训练过程中,比如 lean 和 code interpreter 等工具辅助推理。

然而,直接使用环境的原始反馈进行训练仍然有困难,因此我们通常采取以下两种优化策略: