如果没有图形处理器单元 ( GPU ) ,大多数 AI 任务无法训练和运行。但没有服务器托管,亦无法部署 GPU 。这就是为什么关于数据中心内 GPU 未来的探讨不仅要考虑企业如何获取、配置和供电 GPU ,还要考虑如何打造 GPU 所在的服务器基础设施。
什么是 GPU 服务器?
GPU 服务器就是一台配备了一个或多个 GPU 的服务器。通常,GPU 服务器用于运行需要大量并行计算能力的工作负载。由于 GPU 非常适合并行处理,它们在诸如训练 AI 模型等场景中表现出色,因为这些任务需要同时执行大量操作。
GPU 服务器还包含中央处理器单元 ( CPU ) 。CPU 用于执行传统的计算任务,例如运行控制服务器的操作系统。但 GPU 服务器不仅拥有传统的 CPU ,还提供 GPU 计算资源。
GPU 服务器在数据中心中日益增长的作用
在生成式 AI 兴起之前,数据中心内很少见到 GPU 服务器。大多数数据中心服务器都是传统设备,其计算资源仅由 CPU 提供,而 CPU 非常适合支撑诸如托管网站和数据库等大多数传统负载。
但随着支撑 AI 模型训练和推理的基础设施需求不断增长,数据中心托管 GPU 服务器的能力变得日益重要。
配备先进冷却系统的高密度 GPU 服务器为现代数据中心中的 AI 工作负载提供动力。
GPU 服务器与 CPU 服务器的对比
在许多方面,GPU 服务器与仅包含 CPU 的传统服务器类似。它们通常尺寸相同,可适配标准服务器机架,并需要相同类型的网络和电源连接。
然而,GPU 服务器在以下几个重要方面有所区别:
更多扩展槽:传统服务器通常只有较少的扩展槽,供技术人员将 GPU 和其他专用硬件设备连接到服务器主板上,因为大多数传统服务器并不需要大量附加卡。然而,对于 GPU 服务器来说,必须提供插入 GPU 的途径,因此它们需要更多扩展槽——通常比传统服务器拥有更多扩展槽。有些 GPU 服务器甚至配备足够槽位,可容纳多达 10 个独立 GPU 。
更高的电力需求:GPU 消耗大量电力。这意味着 GPU 服务器必须能够提供比典型仅 CPU 服务器更多的电力。GPU 的供电方式可能各不相同,有时电力通过服务器主板传输,而高端企业级 GPU 则可能拥有专用电源接口。不管怎样,GPU 服务器(以及托管它的机架)都必须能够提供足够的总电能以确保 GPU 正常运行。
更强的散热能力:高能耗必然伴随高热输出。因此,GPU 服务器必须特别擅长散热,通常需要比传统风扇更先进的冷却解决方案。
为 GPU 服务器准备数据中心
由于 GPU 服务器通常可以安装在传统服务器机架中,从物理空间角度来看,它们不会给数据中心运营商带来特殊挑战。但数据中心可能需要在其他方面进行调整以适应 GPU 的需求。
最大的挑战可能在于电力供应。如上所述,GPU 服务器通常需要更多能量。对于数据中心运营商来说,这不仅意味着要确保设施能够提供足够的总电力以维持 GPU 服务器运行,还可能需要优先投资可持续能源,以防高耗电的 GPU 影响可持续性承诺。
保持 GPU 服务器良好散热也是运营商的一大重点。将数十台 GPU 服务器装入同一机架,如果没有高效的散热系统来迅速移除热量,可能根本行不通。
另一个问题是数据中心灾难恢复。无论设施中的服务器类型如何,保护数据中心基础设施免受故障影响并迅速恢复都至关重要。但当服务器中包含每台价格高达数万美元的 GPU 时,这一点尤为重要。
此外,当存在 GPU 服务器时,从停电中恢复可能会更具挑战性,因为在这些服务器上运行的工作负载更难迁移到其他服务器上。如果一台标准服务器宕机,通常可以用另一台标准服务器替换,但对于包含专用硬件和特定配置的 GPU 服务器,情况则不尽相同。
最终结论:将数据中心打造成适合 GPU 服务器的理想环境完全可行,但这需要一些特殊规划和投资。虽然 GPU 服务器可以与标准仅 CPU 服务器共置于同一机架内,但这并不意味着在没有专门措施的情况下就能完美运行。
来源:DataCenterKnowledge
本文转自:至顶网,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。