过去几十年,计算性能和效率取得了难以想象的进步,这得益于摩尔定律,并以横向扩展的通用硬件和松散耦合的软件为基础。这种架构为全球数十亿用户提供了在线服务,让我们几乎可以触及人类所有的知识。
但下一次计算革命将需要更多。要实现AI的承诺,需要在能力上实现远超互联网时代进步的跃迁。为了实现这一目标,我们整个行业必须重新审视推动前一次变革的一些基础,并集体创新,重新思考整个技术栈。让我们探讨推动这一变革的力量,并阐述这种架构应该是什么样子。
从通用硬件到专用计算
几十年来,计算领域的主导趋势是通过建立在几乎相同的通用服务器上的横向扩展架构来实现计算的民主化。这种统一性允许灵活的工作负载部署和高效的资源利用。生成式AI的需求严重依赖于对大规模数据集进行可预测的数学运算,这正在逆转这一趋势。
我们现在正目睹向专用硬件的决定性转变——包括ASIC、GPU和张量处理单元(TPU)——与通用CPU相比,在每美元和每瓦特的性能上提供了数量级的改进。这种针对特定领域的计算单元的激增,为更窄的任务进行了优化,对于推动AI的持续快速进步至关重要。
超越以太网:专用互连的兴起
这些专用系统通常需要"全对全"通信,具有接近本地内存速度的每秒太比特带宽和纳秒级延迟。当今的网络主要基于通用以太网交换机和TCP/IP协议,无法处理这些极端需求。
因此,为了在大规模专用加速器集群中扩展生成式AI工作负载,我们看到了专用互连的兴起,例如用于TPU的ICI和用于GPU的NVLink。这些专门设计的网络优先考虑直接的内存到内存传输,并使用专用硬件来加速处理器之间的信息共享,有效绕过了传统分层网络栈的开销。
这种向紧密集成、以计算为中心的网络的转变,对于克服通信瓶颈和高效扩展下一代AI至关重要。
突破内存墙
几十年来,计算性能的增长超过了内存带宽的增长。虽然缓存和堆叠SRAM等技术部分缓解了这个问题,但AI的数据密集特性只会加剧这个问题。
为满足日益强大的计算单元的无止境需求,出现了高带宽内存(HBM),它将DRAM直接堆叠在处理器封装上,以提高带宽并减少延迟。然而,即使是HBM也面临根本限制:物理芯片周边限制了总数据流,以太比特速度移动大规模数据集会产生显著的能耗约束。
这些限制突出了对更高带宽连接的关键需求,并强调了在处理和内存架构方面取得突破的紧迫性。没有这些创新,我们强大的计算资源将在等待数据时闲置,大大限制效率和规模。
从服务器农场到高密度系统
当今先进的机器学习模型通常依赖于数万到数十万个相同计算元素之间精心编排的计算,消耗巨大的功率。这种在微秒级的紧密耦合和细粒度同步提出了新的需求。与拥抱异构性的系统不同,机器学习计算需要同构元素;混合世代会成为更快单元的瓶颈。通信路径也必须预先规划且高效,因为单个元素的延迟可能会停滞整个过程。
这些对协调和功率的极端需求推动了对前所未有的计算密度的需求。最小化处理器之间的物理距离对于减少延迟和功耗变得至关重要,为新一类超密集AI系统铺平了道路。
这种对极端密度和紧密协调计算的追求从根本上改变了基础设施的最优设计,需要对物理布局和动态功率管理进行根本性重新思考,以防止性能瓶颈并最大化效率。
容错的新方法
传统的容错依赖于松散连接系统之间的冗余来实现高可用性。机器学习计算需要不同的方法。
首先,计算的庞大规模使得过度配置过于昂贵。其次,模型训练是一个紧密同步的过程,单一故障可能会级联到数千个处理器。最后,先进的机器学习硬件经常推向当前技术的边界,可能导致更高的故障率。
相反,新兴策略涉及频繁的检查点——保存计算状态——结合实时监控、备用资源的快速分配和快速重启。底层硬件和网络设计必须能够快速故障检测和无缝组件替换以维持性能。
更可持续的功率方法
今天和未来,功率获取是扩展AI计算的关键瓶颈。虽然传统系统设计专注于每芯片的最大性能,但我们必须转向专注于每瓦特交付的大规模性能的端到端设计。这种方法至关重要,因为它考虑了所有系统组件——计算、网络、内存、功率传输、冷却和容错——无缝协作以维持性能。孤立优化组件会严重限制整体系统效率。
随着我们追求更高性能,单个芯片需要更多功率,经常超过传统风冷数据中心的冷却能力。这需要转向更耗能但最终更高效的液冷解决方案,以及数据中心冷却基础设施的根本性重新设计。
除了冷却,传统的冗余电源,如双公用事业馈电和柴油发电机,会产生大量财务成本并减慢容量交付。相反,我们必须结合多样化的电源和多吉瓦级的存储,由实时微电网控制器管理。通过利用AI工作负载的灵活性和地理分布,我们可以在不需要每年仅使用几小时的昂贵备份系统的情况下提供更多能力。
这种演进的功率模型能够实时响应功率可用性——从在短缺期间关闭计算到为可以容忍性能降低的工作负载进行频率缩放等高级技术。所有这些都需要目前不可用级别的实时遥测和执行。
安全和隐私:内置而非外加
互联网时代的一个关键教训是,安全和隐私不能有效地外加到现有架构上。来自恶意行为者的威胁只会变得更加复杂,需要将用户数据和专有知识产权的保护构建到机器学习基础设施的结构中。一个重要观察是,AI最终会增强攻击者的能力。这反过来意味着我们必须确保AI同时为我们的防御提供超级动力。
这包括端到端数据加密、具有可验证访问日志的强大数据血统跟踪、硬件强制的安全边界以保护敏感计算,以及复杂的密钥管理系统。从基础集成这些保护措施对于保护用户和维持他们的信任至关重要。对可能每秒PB级遥测和日志记录的实时监控将是识别和中和大海捞针式攻击向量的关键,包括来自内部威胁的攻击。
速度作为战略要务
硬件升级的节奏已经发生了戏剧性变化。与传统基础设施的逐架增量演进不同,部署机器学习超级计算机需要根本不同的方法。这是因为机器学习计算不容易在异构部署上运行;计算代码、算法和编译器必须针对每个新硬件世代进行专门调优,以充分利用其能力。创新的速度也是前所未有的,新硬件经常每年提供两倍或更多的性能提升。
因此,不是增量升级,现在需要大规模同时推出同构硬件,通常跨越整个数据中心。随着年度硬件刷新提供整数倍的性能改进,快速建立这些庞大AI引擎的能力至关重要。
目标必须是压缩从设计到完全运营的10万+芯片部署的时间线,实现效率改进的同时支持算法突破。这需要每个阶段的根本性加速和自动化,要求这些基础设施采用类似制造业的模型。从架构到监控和修复,每个步骤都必须简化和自动化,以前所未有的规模利用每个硬件世代。
迎接时刻:下一代AI基础设施的集体努力
生成式AI的兴起不仅标志着进化,更是一场需要对我们的计算基础设施进行根本性重新构想的革命。前方的挑战——在专用硬件、互连网络和可持续运营方面——是重大的,但它将支持的AI的变革潜力同样巨大。
很容易看出,我们由此产生的计算基础设施在未来几年内将变得面目全非,这意味着我们不能简单地改进已经设计的蓝图。相反,我们必须从研究到产业集体努力,从第一原理重新审视AI计算的需求,为底层全球基础设施构建新的蓝图。这反过来将以前所未有的规模和效率产生根本性的新能力,从医学到教育到商业。
Q&A
Q1:为什么生成式AI需要专用硬件而不是通用服务器?
A:生成式AI严重依赖于对大规模数据集进行可预测的数学运算,需要专用硬件如ASIC、GPU和TPU,它们与通用CPU相比,在每美元和每瓦特的性能上提供了数量级的改进。传统的通用服务器无法满足这种极端的计算需求。
Q2:传统的以太网为什么无法满足AI计算需求?
A:AI专用系统通常需要"全对全"通信,具有接近本地内存速度的每秒太比特带宽和纳秒级延迟。当今基于通用以太网交换机和TCP/IP协议的网络无法处理这些极端需求,因此需要专用互连如ICI和NVLink。
Q3:AI基础设施在功率管理方面有什么特殊要求?
A:AI计算需要从传统的每芯片最大性能转向每瓦特交付的大规模性能的端到端设计。由于个别芯片功率需求经常超过传统风冷数据中心的冷却能力,需要转向液冷解决方案,并结合多样化电源和实时微电网控制器管理。
来源:VentureBeat
本文转自:至顶网,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。