异构智算:智能新时代的多元引擎

随着AI大模型持续的升温,越来越多的数据中心都开始向智算中心升级。除了要升级高电、高质量网络、GPU服务器之外,整体架构也随之改变和升级。然后才会有大模型落地、训练、调优、推理等等后续操作。而在这个建设过程当中,大家越来越热衷于「异构智算」。

为什么呢?因为「异构智算」可以更好地适应不同客户的IT基础设施现状,多快好省地搭上智算快车,开启大模型的“训调推”。

那么,到底啥是「异构智算」?

在构建算力集群的时候,理想情况下,选择的所有算力卡不仅品牌一致,甚至连型号系列也完全相同,这属于完全意义的“绝对同构”。

这种配置,适合不差钱且抢货能力强的顶流客户,一出手想买啥就买啥。

如果把这个方案变通一下,A厂或者B厂自家相近系列的GPU,各自组成集群,但A厂和B厂之间不掺和。

虽然没那么理想,但也可以算作一种“同构智算”。

一般来讲,同构环境相对来讲更容易搭建和管理,不要考虑那么多兼容性、稳定性问题。

可是,在实际情况中,为了成本、利旧升级、供应链等多种原因,往往需要把把多家的GPU混合使用,共同扛活。这种情况,就称为【异构智算】。

GPU算力卡的异构,可以很好地平衡建设成本,缓解供货不足的问题,让企业尽快拥有智算能力。

不过,还有很多企业还是不满足,他们希望不仅是GPU加速卡异构,还希望GPU和CPU异构,更灵活地适应各种训练、调优、推理负载。

甚至,CPU还是多种型号、不同指令集的(X86、ARM),各种规格掺和在一起,这种架构充分融合了CPU等传统的通用计算单元和高性能专用计算单元的优点,同时也兼顾AI模型的高效训练和精准推理能力。这种情况,也是很常见的「异构智算」。

而业界已经有很多供应商能够支持这样的方案,允许多样性算力混合编队(不同类型的GPU/加速卡,不同指令集的CPU)。大家求同存异,团结起来,一起把活干了。

而这样就是终极方案了吗?当然不是!还有一种需求:就是把HPC超算中心跟现在的智算中心融合一下,让超算干点智算的事儿,让智算也帮超算扛点活儿?

以前,大家都觉得没必要,因为智算和超算的工作负载有很大区别。

智算主要关注海量数据处理和模型训练,要进行大量的矩阵运算,侧重并行能力,对数据精度要求不高(单精度甚至半精度就够用)。

而超算属于计算密集型任务,需要大规模的数值计算和复杂的数据通信,对数据精度要求很高(通常需要双精度)。

但随着智算市场的变化升级,两者硬件的也开始趋同,算力卡短缺的智算领域萌生了“借鸡下蛋”的想法,希望能在HPC集群空闲时,共享GPU节点。

与此同时,大模型也越来越牛,科研任务也需要智算加持一下。于是「超智融合」方案也出来了,也算是更高级的异构智算。

到这里我们基本已经可以理解异构智算的概念和好处,但无论同构的智算集群,还是异构智算,高质量网络、高速存储这些基础设施才是实现一切的重要基础之一。


本文转自:互盟数据中心,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。

最新文章