趣看热点

如何让智能体进行复杂推理与工具调用？传统方法主要有两类：训练单一的大语言模型，使其同时承担思考与工具调用的任务；要么依赖静态提示词驱动的 training-free 智能体系统。

然而，前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定，缺乏可扩展性（scalability）；后者则缺少学习与适应能力，难以应对复杂场景。

为此，斯坦福大学联合德州农工大学（Texas A&M）、加州大学圣地亚哥分校（UC San Diego）和 Lambda 的研究团队提出了 AgentFlow 框架，通过多个独立 Agent 模块协作，并且提出 Flow-GRPO 算法用于训练。在评测中，AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升，即便是 3B 模型，也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

该方法创新性地将智能体协作推理与强化学习融为一体，提出流中强化学习机制，让智能体系统在推理流中协同演化，形成「动态共振」效应。使其在长期规划能力、工具调用效率和动态推理深度上实现大幅提升，并在搜索、数学、科学及智能体任务等多个领域展现优秀的泛化能力。

项目主页：https://agentflow.stanford.edu/
论文链接：https://huggingface.co/papers/2510.05592
开源代码：https://github.com/lupantech/AgentFlow
开源模型：https://huggingface.co/AgentFlow
在线 Demo：https://huggingface.co/spaces/AgentFlow/agentflow
YouTube 视频：https://www.youtube.com/watch?v=kIQbCQIH1SI

该工作目前不仅在X 上收获了超高的关注度，同时荣登Huggingface Paper 日榜第二名！

https://x.com/lupantech/status/1976016000345919803

https://huggingface.co/papers/date/2025-10-08

研究动机：

从「单兵作战」到「团队协作」

目前，让语言模型学会使用工具进行复杂任务推理主要有两种思路：一种是训练一个「全能型」模型，让它既要思考又要调用工具，所有操作都在一个完整的上下文中交织进行；另一种是采用「智能体系统」，将任务分解给多个专门化的智能体模块协同完成。

第一种方法在简单场景中表现良好，但在面对长链推理、多样化工具调用以及动态环境反馈时，训练过程往往不稳定，难以实现良好的可扩展性。第二种方法虽然具备更高的灵活性，但多数系统依赖人工设计的提示词与逻辑，缺乏从经验中自我学习与优化的能力。

这使得研究团队思考：能否让智能体系统也具备「边做边学」的能力，使其能够在交互中不断进化？

AgentFlow：

在流中学习的智能体系统

为了解决以上挑战，研究团队提出了AgentFlow—— 一个可训练的、工具集成的智能体系统，旨在突破现有方法在可扩展性与泛化能力上的限制。AgentFlow 采用了模块化的智能体结构，由四个具备记忆能力的专门化智能体协同配合，共同完成复杂推理，从而实现「即时学习」：

规划器（Action Planner）：分析任务、制定策略并选择最合适的工具
执行器（Tool Executor）：调用工具集并整合工具执行结果
验证器（Verifier）：基于系统维护的累积记忆评估中间结果是否满足目标与约束
生成器（Generator）：整合所有信息与验证反馈，生成最终答案或行动建议

AgentFlow 的关键创新在于：规划器（Planner）并非固定不变，而是能够在智能体交互的「流」（flow）中实时进行 on-policy 优化，使决策过程随着环境变化及其他智能体的反馈不断自适应进化。通过这一机制，各模块在推理流中协同演化，使整个智能体系统在复杂环境下实现自适应推理（adaptive reasoning）与鲁棒工具调用（robust tool-calling）

Flow-GRPO：

流中强化学习优化算法

实现智能体流中强化学习训练的核心挑战在于多轮信用分配（multi-turn credit assignment）：即如何在长时跨度（long-horizon）奖励稀疏（sparse reward）的条件下，稳定且高效地训练。为此团队提出动作级别的（Action Level）的多轮推理优化目标：

通过将轨迹最终结果的成功或失败信号（outcome reward）广播至每一步，将原本复杂的多轮强化学习问题转化为一系列可处理的单轮策略更新。该方法不仅缓解了奖励稀疏问题，还显著提升了训练效率，为智能体在复杂多轮推理中的稳定学习提供了基础。

实验结果：

AgentFlow 全面基准测试

为了充分评估 AgentFlow 的泛化能力与高效性，研究团队在 10 个跨各个领域的基准测试上进行了系统评测，涵盖知识检索、智能体任务、数学推理和科学推理四大类。以 Qwen-2.5-7B-Instruct 为基座模型的 AgentFlow 在各项基准上均超越现有领先方法：

知识检索（Search）：提升 +14.9%
智能体推理（Agentic Reasoning）：提升 +14.0%
数学推理（Math）：提升 +14.5%
科学推理（Science）：提升 +4.1%

值得注意的是，AgentFlow 的表现甚至超过了大规模的专有模型，如 GPT-4o（~200B）。

实验发现：

小模型的「大智慧」

研究团队在 10 个基准测试上进行了评估，涵盖知识检索、智能体任务、数学推理和科学推理四大类。一些有趣的发现：

模型规模不是唯一答案

使用 7B 参数的 AgentFlow 在多个任务上超过了约 200B 参数的 GPT-4o，Llama3.1-405B，在搜索任务上领先 8.2%，在智能体任务上领先 15.8%。这再一次展现了，合理的系统设计和训练方法可能比单纯堆砌参数训练 All in one 的大模型更有效。

「在流中学习」至关重要

对比实验显示，若采用离线监督学习（SFT）方式训练规划器，性能反而显著下降，平均降低 19%。这表明，智能体在真实交互环境「流」中进行在线学习是实现高效推理的必要条件。此外，尽管 AgentFlow 的推理流本身能够利用其强大的任务分解能力带来显著性能提升，但仍可能出现循环错误或卡顿问题。通过在真实环境中的训练，智能体系统展现出快速修正错误的工具调用、更精细的子任务规划，以及全局任务解决性能的提升。

这些结果进一步证明了模块协作机制以及流中强化学习在提升多轮智能体系统稳定性与效率方面的显著作用。

自主发现新的解决路径

有意思的是，经过 Flow-GRPO 的强化训练规划器，系统学会了根据任务特点选择合适的工具组合；同时，经过训练的系统会自发探索出新的工具使用模式，比如组合使用维基百科搜索（Wikipedia Search）和特定网页增强搜索（Web Search）的连招，通过工具链获得更加深入地信息挖掘，而这些模式几乎没有在未训练的推理流中出现。

动态推理深度与性能提升

对于相同的数据集下的不同难度任务：譬如说多跳搜索（Multihop Search），智能体任务中的密集长链推理任务，AgentFlow 在经过 Flow-GRPO 训练后能够随着最大限制推理步数的上升稳步提升性能，同时又不会大幅提升平均推理步数——这表示对于长难任务会增加有效的推理步数来提升正确率，而不会一味地所有任务都随着最大轮数限制而延长推理步数。

结语

AgentFlow 为智能体训练提供了一种全新的思路：与其追求一个功能完备的单一大语言模型或「一次性完美」的智能体系统，不如让智能体在系统中自我适应与持续学习。通过将群体智能与「边做边学」的范式相结合，AgentFlow 使智能体系统能够在协同演化中不断优化，从而高效应对复杂任务。

尽管从研究探索到实际应用仍有较长的距离，但这样的工作让我们看到：Agentic AI 依然蕴藏着巨大的潜力与想象空间。

智能体系统如何「边做边学」？斯坦福团队探索在线优化的新范式

太强了！单月...

追觅汽车三款...

懂穿搭的女人...

全红婵遭群聊...

法尔克：作为...

台北一醉酒女...

相同的3nm工艺：天玑9500要比第五代骁龙8至尊版便宜50%以上！

深圳“禁摩令”再续三年，至2028年

上年纪的女人穿衣别焦虑，试试这几个搭配套路，优雅还减龄

女生在马来西亚丢手机找回后发现相册里多了两段视频

43岁阿Sa承认与男友同居，已带男友见过家长

为了挡住豆包，腾讯撒出10亿红包

佘诗曼《新闻女王2》首波口碑出炉了！现场观众的评价一针见血

半个娱乐圈为肖战包场，《得闲谨制》票房走俏，侯鸿亮鞠躬致谢

央视《老舅》播1天，全国收视第一，不愧是我苦苦盼了2年的年代剧

SK海力士因环保问题被罚26.4万

抖音：卖茅台低于市场行情价将被处罚

货拉拉等平台被调查

将于北京车展首发奕境旗下首款量产车路试谍照曝光

炸了！古二再曝录音，王家卫称游本昌不是省油灯，还说唐嫣很装

首发搭Momenta最强模型上汽大众ID.ERA 9X突围9系红海

比亚迪洽谈收购大众德国“透明工厂”！曾经生产辉腾！

加沙地带民防部门：以军袭击一车辆同一家庭9人死亡

RT-Thread熊谱翔：开源是国产操作系统构建生态的最佳路径

特朗普施压伊朗：美军舰队规模比在委内瑞拉的还大

特朗普突然中止与加拿大贸易谈判加元汇率直线跳水

美军袭击2艘所谓＂从事毒品走私活动＂船只致5人死亡

长安启源全新 Q05 车型 11 月 21 日上市，纯电续航 506km

官方：克雷马斯基当选美国2025年度最佳青年球员

国乒多人离队总教练秦志戬回应