新闻动态

AgentConductor：面向竞赛级代码生成的多智能体交互拓扑演化

发布时间：2026-03-08 浏览量：1154

AgentConductor：面向竞赛级代码生成的多智能体交互拓扑演化

王思宇卢若添杨智豪王钰超张延洲徐磊许齐敏殷国君陈彩莲^*关新平^*

研究背景与意义

在人工智能与Agentic Coding飞速发展的今天，大语言模型（LLM）已经能胜任各类任务。但面对更复杂的挑战——比如国际编程竞赛级别的算法题，单个大模型往往力不从心。于是，研究者开始尝试组建“智能体团队”：多个智能体分工协作，共同解决问题。然而，现有的多智能体系统普遍存在一个致命缺陷：结构僵化。无论任务是“print Hello World”还是“实现红黑树”，它们都使用同一套固定的沟通流程，这就像不管修自行车还是造火箭，都派同一个10人专家小组开三天会，这导致大量Token消耗所带来的高昂成本与智能体通讯冗余。

上海交通大学i-WiN团队最新提出AgentConductor通过扮演智能项目经理的指挥智能体来解决这个问题。它会分析问题，评估其难度，并针对特定任务创建一个定制的交互拓扑图（见图1）。简单的任务由一个规模小、成本低的团队完成；而复杂的任务则由一个规模大、连接紧密的团队完成。更重要的是，如果生成的代码运行失败，指挥智能体会读取错误信息，并端到端重新生成团队的交互图，尝试新的策略。关键在于，它大幅提高了编码准确率14.6%，同时将计算Token成本降低了 68%，这证明人工智能团队需要的是灵活的、针对特定任务的管理，而不是僵化的、一刀切的工作流。

图片1.png 图片2.png

图1. (a)拓扑结构的 YAML 表示与实际图表的映射; (b)AgentConductor 推理过程与拓扑演化展示

社会影响力

图2展示了 AgentConductor工作在国际 AI 社区(前身Twitter)引发的广泛关注与高度认可。这项工作被知名AI论文资讯与AI教育平台 DAIR.AI（被知名学者吴恩达、千问团队前技术Leader林俊旸等人关注）当日置顶宣传并评为 2026年2月23日–3月1日 Top AI Papers （榜单其他论文来自Google DeepMind、Meta、Microsoft等知名公司研究团队），并获得新锐AI科技博主 Rohan Paul（其推文常被谷歌CEO Sundar Pichai、亚马逊创始人Jeff Bezos、知名学者李飞飞等人关注）对i-WiN团队和论文的高度评价，并引起了热烈讨论、转发与点赞。

图片3.png 图片4.png 图片5.png 图片6.png 图片7.png

图2. AgentConductor 得到 DAIR.AI 与 Rohan Paul 等账号推荐

核心创新：分层 DAG 拓扑 + 密度感知生成机制

图3展示了AgentConductor的总体框架。AgentConductor 的核心在于将多智能体协作建模为一个分层有向无环图（Layered DAG）(见图1)，其中：

1) 每一层（step）包含并行执行的智能体节点；

2) 节点间通过 ref 字段显式声明依赖关系，支持跨层通信；

3) 拓扑以结构化 YAML 格式生成，可由 LLM 直接输出并解析。

图片8.png

图3. AgentConductor的总体框架

为实现任务自适应，我们将问题分成三档难度，并根据从 Token 成本到拓扑密度的形式化映射，提出了拓扑密度评估函数，综合刻画节点数、边密度与图深度对通信成本的影响。我们在论文中证明，多智能体系统的平均通信成本可形式化为：

其中 d 为图深度，m 为提示词最大长度。由此导出的拓扑密度指标，为优化目标提供了理论依据。结合分层 DAG 的深度近似等于层数的分析，我们得以用可计算的总步数 s 替代，使密度函数可微、可优化。(**拓扑密度函数部分由卢若添同学提供理论推导与主要贡献)

训练范式：SFT + GRPO 的两阶段优化

AgentConductor 采用两阶段训练策略：

1) 监督微调（SFT）：基于 GPT-4o 生成的 4,500 个高质量拓扑样本（覆盖三档难度），赋予基础模型拓扑先验；

2) 分组相对策略优化（GRPO）：以多轮轨迹为单位，优化策略以最大化复合奖励。

实验结果：SOTA 性能 + 显著成本降低

我们在三个竞赛级（APPS, LiveCodeBench, CodeContests）与两个基础代码数据集（HumanEval, MBPP）上评估 AgentConductor（基于 Qwen-2.5-3B-Instruct）：

表1. AgentConductor的pass@1准确率对比

图片9.png

表1说明，AgentConductor 以仅 3B 参数量，在 APPS 上显著超越最强基线，同时减少了 68% 的 completion token 消耗，并实现最高拓扑稀疏度。更重要的是，系统展现出细粒度难度适配能力：在 easy 任务上使用极简拓扑（平均 3–4 节点），在 hard 任务上自动扩展至 8–10 节点，而多数基线无论难度均维持固定密度。（^*更多佐证结果详见论文）

结语：多智能体系统正在学会组织自己

过去，多智能体系统常被视为“堆人力”的暴力解法：越多AI越好。但AgentConductor 证明，智能协作的关键不在于数量，更在于结构的适应性。它标志着多智能体研究从“静态工作流”迈向“动态生态系统”。 AgentConductor 不仅是一项工程优化，更代表了一种新范式：将多智能体协作视为可学习、可演化的结构化决策过程。 通过将任务难度、执行反馈与通信成本统一纳入强化学习框架，我们实现了准确率与效率的协同提升。

项目代码与模型即将开源，欢迎关注后续进展。

论文：arXiv:2602.17100

下一篇：IWIN中心举办2025年度颁奖典礼暨2026届硕士生毕业典礼