Part 1

最近搞 rl agent 踩了不少坑，同时回看 Ilya 2018 年对于元学习的 talk，产生了一些新的零散的、可能还不成熟的认知和想法，分享在这里，可以一起探讨。全文较长。

对 agent 在当前时间节点上的定义

暂且划分为 inference/training time 两类 (测试时/训练时 agent)。

前者的例子如大部分 AI agent 应用、agent workflow (工作流) 等，主要关注于模型、环境与人之间的 orchestration 策略设计，而一般不在模型基座层面做训练操作；后者的例子如 rl agent (operator、deepresearch) 等，主要关注基模训练策略。后者理论上可以涵盖前者，但当前主流观点认为，经过充分训练后的原生 agentic model 对专门的测试时设计的依赖会降低，或在某些场景下不便继续进行测试时设计。这里对测试时 agent 的定义不包括其架构是否一定是人为设计的，这点后面会提到。

测试时 agent 会不会被训练时 agent 所取代？

这是一个目前业内尚未有明确共识的问题，也是最有争议的问题之一。我个人认为：在我理解的 AGI到来之前，不会。之后我们来解释这里的 AGI 具体指什么。

首先从应用角度看，人为定义的测试时 agent 设计已经有很多成功案例和市场反馈，包括生产力和对大众认知的提升上，尽管他们仍有很多问题，但确实在一定层面上提高了基模的上限，而这个上限，在相对长期的时间跨度上似乎仍然有效 - 即随着基模能力提升，人为定义的测试时设计仍可以在一些任务上提高基模表现。

但这个提高的空间是否会逐渐消失呢？我认为是的。

从学术角度看，人为定义的测试时 agent 的最大助力之一是在 (冷启动) 数据的构造上，而这也可能是当前阶段在数据相对匮乏时最高效获取多样性、高质量数据的一类方式。“最高效”指的是从数据多样性、数据质量和构造速率三方面的综合考量。于是，我们有很多工作尝试让模型自主化进行对测试时agent 的设计，但对其设计的根本 (atomic actions/env) 通常还是无法离开人的帮助，最终其实是在人的比例和上述三方面做取舍，带来不同 robust/stable 程度的基模能力提升。

此处也引出我对 AGI 的一种理解，在我看来，这是指模型已经足够强大，能够自主地生成或内化那些测试时人为设计的策略与反馈机制，使人为干预逐渐变得冗余或失效。这意味着模型内化的环境 (即“世界模型”) 和真实环境达到了高度一致。然而，当前阶段难以直接优化这种内化目标，最主要的困难来自环境和评估标准的不完善。

环境与评估 (reward)

笔者在大模型时代才开始接触 RL，对其理解比较初级，希望大家多多批评指正～

在 Ilya 的 talk 中提到：

one thing that is not perfect of rl is that it assumes the reward is given by the environment, whereas we figure the reward based on the observation - we reward ourselves.

通俗来讲，我们作为人类对于环境的理解实际上是内化的 - 环境不会主动给我们奖励，而是我们根据环境反馈决定如何奖励自己。从学术角度看，这类似于“我自己就是自己的 reward model”，而 RL 中模型的 reward 是另一个个体或环境直接给定的，这种 reward 可以分别对应人的反馈或人为定义的环境反馈（例如数学题的正确答案，代码的单元测试等）。前者（人的反馈）衍生了很多工作，例如通过设计能够自主提供 reward 的模型来减少人类参与，提高模型训练效率，这类工作典型如 RLHF；后者（环境反馈）也出现了不少研究，通过设计自主提供 critic（评估）的模型来减少人工干预，这种方式成功地在一些特定任务（如数学与代码推理）中被内化到模型自身训练过程中，比如 lean 和 code interpreter 等工具辅助推理。

然而，直接使用环境的原始反馈进行训练仍然有困难，因此我们通常采取以下两种优化策略：