摘要基于大语言模型的多智能体框架通过多角色协作来解决复杂的推理任务。然而现有方法往往存在推理不稳定的问题单个智能体的错误在协作过程中被放大从而损害整体性能。当前研究主要侧重于增强高能力智能体或抑制不可靠的输出以提升框架有效性而系统性地识别并强化性能受限的智能体则较少受到关注。为弥补这一空白我们提出了WORC——一个基于“弱链接”原则的多智能体推理与协作优化框架。WORC遵循两阶段工作流程。在弱智能体定位阶段首先构建任务特征然后利用一个基于元学习的权重预测器——该预测器通过群体智能算法在最优配置上训练得到——实现从任务特征到智能体性能权重的零样本映射其中预测权重最低的智能体被识别为弱智能体。在弱链接优化阶段一种不确定性驱动的分配策略会向弱智能体分配额外的推理预算预测权重越低重复采样配额越大以补偿其可靠性不足。实验结果表明WORC在推理基准测试上达到了平均准确率同时提升了框架稳定性和跨架构泛化能力这表明补偿弱链接——而不仅仅是强化强项——能够增强多智能体系统的鲁棒性。索引词大语言模型多智能体弱链接推理优化引言大语言模型在生成式自然语言处理任务中展现出了卓越的能力但在数学问题求解和逻辑推理方面仍然表现欠佳。为此研究人员提出了诸如思维链等推理方法将人类的推理方式形式化为提示模板并强调子任务分解与多步推理。近期研究进一步探索了任务驱动的对齐和结构感知的推理链优化。与此同时人工智能智能体的兴起特别是利用规划、反思和工具使用能力进行协作的多智能体框架显著增强了大语言模型在复杂问题求解任务上的表现。近期进展还将协作推理从静态智能体协作拓展到了交互感知、角色自适应和共识驱动的协作范式从而在分布式推理智能体之间实现了更加结构化的审议过程。这些发展提升了多智能体推理系统在长期决策任务中的有效性包括科学编程、医疗诊断和自主规划等。然而在复杂推理任务中多智能体框架面临着巨大的协调挑战需要进行任务分解与协作以使个体智能体的行动与整体目标保持一致。一条推理路径的可靠性取决于其各组成部分的复合可靠性这使得系统本质上容易受到性能退化的影响。多智能体架构中表现不佳的个体智能体以下称为弱智能体会因其不准确的推理、不可靠的决策和易出错的输出而损害系统的整体可靠性。传统设计范式——无论是强调更强的推理智能体还是引入简单的共识机制如投票和辩论——尽管有效但仍然容易出现不稳定性并表现出较高的性能波动。这种脆弱性具体表现为错误在推理阶段之间累积在任务分解中前置智能体的输出会作为后续智能体的输入。任何智能体的低精度或未校准输出都可能将错误向下游传播从而放大其影响。异构智能体可靠性下的共识退化共识机制依赖智能体之间的意见一致。能力有限的智能体所做出的错误贡献可能会降低整体决策质量并引入系统性偏差。类似地多路径推理方法通过探索多条候选推理轨迹来缓解这些风险但其效果仍然受到弱智能体的制约并可能带来额外的计算开销。为解决上述局限我们提出了WORC——一个基于弱链接优化原理、面向大语言模型驱动的多智能体系统的推理优化框架。这一视角的灵感来源于瓶颈驱动的系统优化原理通常被称为“木桶效应”该原理已被广泛应用于系统可靠性工程、生产优化和容错分布式系统设计其核心思想是整体系统性能受限于其最薄弱的组件。在多智能体推理的背景下这一原理激励我们将重心转向对弱智能体的针对性补偿以提升推理可靠性。为实现这一原理WORC采用了一个两阶段的优化过程弱智能体定位和弱链接优化。在弱智能体定位阶段利用群体智能算法基于多智能体推理在采样得到的任务类型数据集上的表现来估计最优的智能体权重向量配置从而捕捉协作推理过程中任务依赖的智能体贡献。该方案利用群体智能方法的基于种群的全局搜索能力在无需显式监督的情况下对智能体性能分布进行建模并将得到的权重向量构建为用于跨任务泛化的知识库。当遇到新的推理任务时使用文本嵌入模型如OpenAI embeddings构建任务签名其中融合了语义均值嵌入和结构统计特征。随后这些签名由一个基于元学习的权重预测器处理从知识库中检索最相关的权重向量作为识别弱智能体的基准。在弱链接优化阶段一种自动预算分配机制根据预测得到的权重配置向已识别的弱智能体分配额外的推理资源。所有智能体按其分配额度生成候选解最终输出通过一个基于投票的聚合模块获得。作为这种可泛化优化方法的一个演示实例我们设计了一个简单的基于链式结构的多智能体推理系统称为AgentChain作为我们方法的一个示例性实现。此外我们在不同数据集和任务上进行了全面的评估结果表明该框架在推理能力、稳定性和可解释性方面均有提升。我们的贡献包括提出了一种面向大语言模型驱动的多智能体推理的优化方法该方法受“弱链接”原理启发专注于通过处理架构中的薄弱组件来增强系统鲁棒性。为了在不同任务间泛化弱智能体检测我们构建了一个基于元学习的权重预测器和群体智能算法用于任务特征分析从而实现对不同任务中弱智能体的零样本识别。全面的实验评估和理论分析证明了该方法在提升多种多智能体框架的推理准确率和系统稳定性方面的有效性。