AgentConductor:面向竞赛级代码生成的多智能体交互拓扑演化
王思宇 卢若添 杨智豪 王钰超 张延洲 徐磊 许齐敏 殷国君 陈彩莲* 关新平*
研究背景与意义
在人工智能与Agentic Coding飞速发展的今天,大语言模型(LLM)已经能胜任各类任务。但面对更复杂的挑战——比如国际编程竞赛级别的算法题,单个大模型往往力不从心。于是,研究者开始尝试组建“智能体团队”:多个智能体分工协作,共同解决问题。然而,现有的多智能体系统普遍存在一个致命缺陷:结构僵化。无论任务是“print Hello World”还是“实现红黑树”,它们都使用同一套固定的沟通流程,这就像不管修自行车还是造火箭,都派同一个10人专家小组开三天会,这导致大量Token消耗所带来的高昂成本与智能体通讯冗余。
上海交通大学i-WiN团队最新提出AgentConductor通过扮演智能项目经理的指挥智能体来解决这个问题。它会分析问题,评估其难度,并针对特定任务创建一个定制的交互拓扑图(见图1)。简单的任务由一个规模小、成本低的团队完成;而复杂的任务则由一个规模大、连接紧密的团队完成。更重要的是,如果生成的代码运行失败,指挥智能体会读取错误信息,并端到端重新生成团队的交互图,尝试新的策略。关键在于,它大幅提高了编码准确率14.6%,同时将计算Token成本降低了 68%,这证明人工智能团队需要的是灵活的、针对特定任务的管理,而不是僵化的、一刀切的工作流。

图1. (a)拓扑结构的 YAML 表示与实际图表的映射; (b)AgentConductor 推理过程与拓扑演化展示
社会影响力
图2展示了 AgentConductor工作在国际 AI 社区(前身Twitter)引发的广泛关注与高度认可。这项工作被知名AI论文资讯与AI教育平台 DAIR.AI(被知名学者吴恩达、千问团队前技术Leader林俊旸等人关注)当日置顶宣传并评为 2026年2月23日–3月1日 Top AI Papers (榜单其他论文来自Google DeepMind、Meta、Microsoft等知名公司研究团队),并获得新锐AI科技博主 Rohan Paul(其推文常被谷歌CEO Sundar Pichai、亚马逊创始人Jeff Bezos、知名学者李飞飞等人关注)对i-WiN团队和论文的高度评价,并引起了热烈讨论、转发与点赞。


图2. AgentConductor 得到 DAIR.AI 与 Rohan Paul 等账号推荐
核心创新:分层 DAG 拓扑 + 密度感知生成机制
图3展示了AgentConductor的总体框架。AgentConductor 的核心在于将多智能体协作建模为一个分层有向无环图(Layered DAG)(见图1),其中:
1) 每一层(step)包含并行执行的智能体节点;
2) 节点间通过 ref 字段显式声明依赖关系,支持跨层通信;
3) 拓扑以结构化 YAML 格式生成,可由 LLM 直接输出并解析。
图3. AgentConductor的总体框架
为实现任务自适应,我们将问题分成三档难度,并根据从 Token 成本到拓扑密度的形式化映射,提出了拓扑密度评估函数,综合刻画节点数、边密度与图深度对通信成本的影响。我们在论文中证明,多智能体系统的平均通信成本可形式化为:
其中 d 为图深度,m 为提示词最大长度。由此导出的拓扑密度指标
,为优化目标提供了理论依据。结合分层 DAG 的深度近似等于层数的分析,我们得以用可计算的总步数 s 替代,使密度函数可微、可优化。(**拓扑密度函数部分由卢若添同学提供理论推导与主要贡献)
训练范式:SFT + GRPO 的两阶段优化
AgentConductor 采用两阶段训练策略:
1) 监督微调(SFT):基于 GPT-4o 生成的 4,500 个高质量拓扑样本(覆盖三档难度),赋予基础模型拓扑先验;
2) 分组相对策略优化(GRPO):以多轮轨迹为单位,优化策略以最大化复合奖励。
实验结果:SOTA 性能 + 显著成本降低
我们在三个竞赛级(APPS, LiveCodeBench, CodeContests)与两个基础代码数据集(HumanEval, MBPP)上评估 AgentConductor(基于 Qwen-2.5-3B-Instruct):
表1. AgentConductor的pass@1准确率对比
表1说明,AgentConductor 以仅 3B 参数量,在 APPS 上显著超越最强基线,同时减少了 68% 的 completion token 消耗,并实现最高拓扑稀疏度。更重要的是,系统展现出细粒度难度适配能力:在 easy 任务上使用极简拓扑(平均 3–4 节点),在 hard 任务上自动扩展至 8–10 节点,而多数基线无论难度均维持固定密度。(*更多佐证结果详见论文)
结语:多智能体系统正在学会组织自己
过去,多智能体系统常被视为“堆人力”的暴力解法:越多AI越好。但AgentConductor 证明,智能协作的关键不在于数量,更在于结构的适应性。它标志着多智能体研究从“静态工作流”迈向“动态生态系统”。 AgentConductor 不仅是一项工程优化,更代表了一种新范式:将多智能体协作视为可学习、可演化的结构化决策过程。 通过将任务难度、执行反馈与通信成本统一纳入强化学习框架,我们实现了准确率与效率的协同提升。
项目代码与模型即将开源,欢迎关注后续进展。