递归语言模型登场！MIT华人新作爆火，扩展模型上下文便宜又简单

目前，所有主流 LLM 都有一个固定的上下文窗口（如 200k, 1M tokens）。一旦输入超过这个限制，模型就无法处理。

即使在窗口内，当上下文变得非常长时，模型的性能也会急剧下降，这种现象被称为「上下文腐烂」（Context Rot）：模型会「忘记」开头的信息，或者整体推理能力下降。

这种现象在现实使用中远比在标准化基准测试中更明显。当用户与 ChatGPT 等主流 LLM 进行长时间、多轮的复杂对话时，会明显感觉到模型开始变「笨」，变得难以聚焦、遗忘关键信息。

来自 MIT 的研究者从一个直观的想法出发：也许可以把超长上下文切分，分别交给模型处理，再在后续调用中合并结果，以此避免衰退问题？

基于此，他们提出了递归语言模型（Recursive Language Models，RLMs），这是一种通用的推理策略：语言模型将输入上下文视作变量，对其进行分解并递归式交互。

将上下文视为一个可操作的「变量」：主模型（root LM）在一个类似 Jupyter Notebook 的编程环境（REPL）中工作，完整的上下文只是一个它能用代码访问的变量，而不是直接的输入。
递归调用自身或小模型：主模型可以编写代码来查看、切分、过滤（比如用 grep）这个巨大的上下文变量，然后把小块的任务外包给一个个小的、临时的 LLM 调用（递归调用）。
综合结果：主模型收集这些「外包」任务的结果，最终形成答案。

研究者还设计了一个具体实现：在一个 Python REPL 环境中调用 GPT-5 或 GPT-5-mini，并将用户的 prompt 存入变量中进行迭代式处理。

结果很惊人：在能获取到的最难的长上下文评测集之一 OOLONG 上，使用 GPT-5-mini 的 RLM 正确答案数量是直接使用 GPT-5 的两倍以上，而且平均每次调用的成本更低。

研究者还基于 BrowseComp-Plus 构建了一个全新的长上下文 Deep Research 任务。在该任务中，RLM 显著优于 ReAct + 推理时索引 / 检索等方法。令人意外的是，即使推理时输入超过 1000 万 tokens，RLM 的性能也没有出现衰减。

他们相信，RLM 很快会成为一个强大的范式

同时，相比于仅依赖 CoT 或 ReAct 风格的代理模型，显式训练以递归式推理为核心机制的 RLM，很可能成为推理时扩展能力领域的下一个里程碑

递归语言模型登场！MIT华人新作爆火，扩展模型上下文便宜又简单

凯美瑞更多>>