本文编译自SemiWiki
代理式人工智能(Agentic AI)工作负载正重塑现代数据中心基础设施的计算需求,将性能瓶颈从以GPU为核心的推理环节,转移至对CPU算力要求极高的编排与工作流管理环节。
传统人工智能推理流水线主要依靠GPU执行单次前向传播,输入分词、模型运行和输出生成按顺序进行。而新兴的Agentic AI系统将推理转化为分布式的多步骤流程,涵盖规划、工具调用、验证及迭代推理等环节。这一架构变革带来了对CPU的海量需求,使得CPU的算力成为维持系统吞吐量和整体成本效率的关键因素。

在代理式工作流中,CPU承担各类编排任务,包括控制流管理、分支逻辑处理、重试机制执行,以及多智能体与外部服务间的协同调度。每次智能体调用均可能需要与数据库、应用程序编程接口、搜索引擎或向量数据库进行交互,这些操作都会产生额外的CPU、内存及I/O开销。
此外,推理密集型工作负载通常需要独立的沙箱执行环境来开展验证与测试工作。这些迭代循环形成多轮次工作流,而CPU的性能决定了系统的端到端吞吐量。当CPU资源不足时,GPU会因等待预处理、工具执行或验证步骤完成而处于空闲状态,造成高成本加速硬件的利用效率低下。
实验基准测试进一步印证了CPU工作负载在代理式流程中的重要性。在一项模拟监管申报文件分析的金融异常检测工作流测试中,CPU负责处理数据加载、基准值计算、异常检测、文档检索,以及通过网络搜索实现的信息补充等任务。
测试结果显示,CPU操作占据了总运行时间的主导地位,仅信息补充环节消耗的时间就远超过基于GPU的模型推理步骤。这一结果凸显,仅对推理环节进行加速无法实现整体性能优化,系统需在CPU编排与GPU计算之间达成平衡。
另一项针对人工智能辅助代码生成的基准测试,进一步揭示了CPU的性能瓶颈。在该工作流中,GPU负责生成候选解决方案,而CPU则在沙箱环境中执行并验证代码。在超过两千项测试任务中,即便使用高核心数的中央处理器系统,基于CPU的沙箱执行环节消耗的时间仍略高于GPU的代码生成环节。CPU处理阶段涵盖子进程管理、测试执行与结果分析,这表明在智能体化系统中,验证循环消耗的时间可能与推理环节相当,甚至超过后者。上述研究结果表明,若不同步提升CPU性能,单纯提高GPU性能无法改善系统的整体吞吐量。
从这些实验中得出的基础设施规模配置建议,核心是维持CPU与GPU的配比平衡。当前的配置指南建议,根据工作负载特性,CPU与GPU的配比应在1:1至1.4:1之间,即每块GPU对应约86至120个CPU核心。Token生成速度更快的小模型,需要更多的CPU资源来保证GPU处于满负载运行状态,而性能更强的CPU则可适当降低这一配比。未来高性能GPU的问世,可能会进一步提升对CPU的需求,若编排逻辑的复杂度持续增加,这一配比数值或将进一步走高。
这一结论的影响不仅限于性能优化层面。CPU资源配置不足,会导致编排环节产生延迟、工具执行受阻、验证循环变慢,这些问题都会降低GPU的利用率,推高运营成本。反之,合理扩容CPU资源,能保障数据准备、协同调度与验证工作的持续开展,让GPU始终处于最高效率运行状态。这种系统层面的平衡与微服务架构的逻辑相通,即系统的整体性能由最慢的组件而非最快的组件决定。
随着Agentic AI的持续发展,CPU在推理基础设施中的核心地位将愈发凸显。从单次推理到多步骤工作流的转变,使得系统价值向编排、协同与运行时管理环节转移。因此,部署智能体化系统的企业必须重新审视传统的以GPU为核心的扩容策略,转而设计能配置充足CPU资源的平衡架构。通过实现CPU与GPU资源的匹配适配,数据中心能够维持稳定的吞吐量,最大限度减少加速硬件的空闲时间,实现下一代人工智能部署的总拥有成本优化。
本文转自:TechSugar,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。





