本文编译自Electronic Design
就在不久之前,AI集群的扩容方式,还只是新增数百颗加速器,并相应调整周边网络架构。如今,这套模式早已脱离现实。现阶段,AI集群普遍搭载数万块GPU,顶级超大规模系统正朝着数十万GPU的规模演进。
在此等体量之下,网络成为决定系统整体性能的核心关键。
真正的瓶颈源自架构层面。目前绝大多数数据中心,依旧沿用胖树、克洛斯拓扑等多层级电交换架构。这类架构适配传统随机性业务负载,曾发挥极佳效用。
而AI训练工作负载的表现则截然不同。
训练过程中,加速器群组之间会产生稳定且海量的东西向横向流量,且各运算节点在训练全流程中必须保持时序同步。数据每经过一次电交换机转发,都会产生延迟;每一次光电、电光转换,都会造成额外功耗损耗。
伴随集群规模持续扩张,网络数据传输能耗,已从常规运营细节,转变为核心设计约束条件。在大型AI部署场景中,网络设备功耗在整体能耗占比中愈发突出。
行业由此开始直面深层架构难题:海量数据流是否必须经过多层报文处理环节?大规模算力资源之间,能否搭建更高效的直连互联模式?
光电路交换当下的核心价值
光电路交换(OCS)为大型网络搭建提供了全新底层思路(图1)。该技术摒弃逐一分组、多级转发的传统模式,可在各终端节点之间建立专属直达光链路。链路建立完成后,数据可持续高速传输,全程无需反复报文检测与数据缓存。

对于人工智能训练任务而言,这一点尤为重要。训练作业需要传输海量数据,且相关数据会以可预测的模式重复传输数千次。网络无需逐一对沿途每个数据包进行处理,而是可以在任务运行期间建立专用传输通道,并在负载发生变化时重新配置链路。此举能够提升带宽利用率、降低网络超额订阅比例,并显著减少单位比特的能耗。
光电路交换并非新兴技术。早在二十一世纪初,业界就已对其开展大量研究,彼时大多依托MEMS反射镜阵列实现光纤端口之间的光路调控。但这类系统存在诸多实用问题,难以大规模普及。机械结构复杂导致端口数量受限,制造成本高昂,长期运行可靠性也存在隐患。与此同时,电交换技术持续高速迭代优化,光电路交换因此长期局限于小众应用场景。
过去数年间,行业环境已发生多重转变。人工智能基础设施的规模突破临界门槛,训练负载的通信特征开始对现有网络形成巨大压力。功耗问题也从日常运营层面的考量,升级为顶层架构设计的硬性约束。更为关键的是,固态光束操控技术日趋成熟,曾经阻碍光电路交换落地应用的各类现实难题,如今已具备解决条件。
多重因素叠加,让光电路交换重回行业视野,且其在整体架构中承担的作用,远超最初的设计定位。
重新考量基数与网络规模
数十年来,数据中心网络架构的设计,长期受制于交换芯片的性能上限。单颗ASIC仅能承载固定数量的端口,如32端口、64端口乃至128端口,更大规模的网络只能通过堆叠设备、搭建分层多级架构实现。系统规模越大,网络层级就越多。基于超表面的固态可编程光学等新兴技术,正在打破这一固有设计逻辑,解锁全新架构方案。
当交换架构的端口规模从数百级提升至数千级,网络设计逻辑将彻底改变,多层级的复杂架构不再是必然选择,大型集群的整体架构得以趋于扁平化。
大端口规格的交换域能够减少数据转发跳数,有效降低传输延迟。在部分场景下,整套层级的数据包处理架构甚至可以被精简移除。现阶段依靠精细化流量调度缓解的超额订阅问题,未来可直接通过交换架构本身实现优化解决。
在中小型部署场景中,集成256×256端口的紧凑型光交换机可直接部署于机柜层级,实现机柜内部连接动态可调,依托软件即可根据负载需求灵活重组加速器集群。而在超大规模场景下,万端口级别的巨型光交换域,可作为大型人工智能集群的可重构核心骨干网络。
这类技术升级不局限于带宽的小幅提升,更为大规模网络建设提供了全新设计思路。
瓶颈正在转移
业界探讨光网络基建时,往往聚焦插入损耗与链路预算等指标。这类指标固然关键,但当前制约人工智能基础设施发展的核心瓶颈,正逐步发生转变。
光模块收发技术迭代提速,共封装光学器件与下一代可插拔光模块持续提升链路传输效率,弱化电信号传输距离受限问题。随着链路层级能效持续优化,行业关注重心自然向上转移至系统上层架构设计。
随着能效持续提升,核心问题转变为:
- 交换域的实际可实现规模上限能达到多少?
- 网络连接适配负载部署的调整速度有多快?
- 网络层级的实际必要数量为多少?
- 裁撤冗余的数据包处理层级,能够节约多少功耗?
固态可编程光学技术,尤其是基于超表面光束操控的技术,可直接解答上述问题。该类设备无机械运动部件,光路由电子控制,相比早期机械式系统,具备更高的可靠性与可扩展性。
同样关键的是,网络连接模式可通过软件自定义并动态重配。无需部署固定拓扑结构并被动适配后续业务负载,网络架构能够灵活适配算力资源的实际调用方式。
光电路交换在现实网络中的应用定位
在现有设计中,光电路交换并不会取代分组网络,而是对其形成互补。
电交换机依旧负责短时数据流、控制流量以及所有需要精细化路由调度的业务;光电路则承载人工智能训练场景中占比最高的海量、持续化数据传输。
由此形成混合网络架构,大规模数据流可绕过拥塞的分组处理层级,同时保留原有控制平面完整运行。光电路可与集群调度器、软件定义网络控制器协同联动,实现网络连接随负载部署动态调整。
调度、网络与光学技术的融合,折射出基础设施设计的整体变革趋势。网络开始主动适配业务负载与应用运行特征,不再依赖静态固化的设计逻辑。
光电路技术发展展望
光电路交换技术的理论研究已有数十年,真正改变行业格局的,是当下对该技术产生刚需的超大规模系统。
伴随AI集群不断扩容,业界开始重新审视沿用已久的网络架构设计理念。曾经不切实际的大端口基数方案,现已纳入实际系统设计的讨论范畴;以往必不可少的网络层级,也有望迎来形态革新甚至精简移除。
未来的AI数据中心,将摆脱僵化的多级电交换架构,转变为灵活可变的光交换域,网络连接将随算力资源协同演进,而非对算力发展形成制约。
在此架构下,网络升级为可随负载运行特征动态调整的基础设施层。光电路交换不再只是一种具备参考价值的备选架构,正逐步成为超大型AI系统互联的底层基础架构。
本文转自:TechSugar,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。





