关于AI与数据中心的7个关键要点

来源:企业网D1Net


AI正在改变企业,数据中心也不例外。随着公司加大对AI的投入,它们发现传统的数据中心模式已无法跟上发展步伐。电力和冷却系统承受着巨大压力,老旧的网络也造成了数据瓶颈。同样重要的是,领导者必须重新思考人员配置、治理和文化,以跟上AI势不可挡的发展步伐。

我们与多位从业者和IT领导者进行了交流,以了解数据中心需要做出哪些改变来支持未来的AI应用。我们得出了七点见解,可帮助你为AI时代做好数据中心及其支持企业的准备。


1. AI工作负载将电力和冷却系统推向极限

AI数据中心基础设施对水和电力的需求很大,这与其构建和使用方式有关。

斯堪的纳维亚数据中心(Scandinavian Data Centers)的CEO兼创始人斯万特·霍恩(Svante Horn)表示:“AI工作负载消耗大量能源,这不仅是因为所需的计算能力巨大,还因为底层硬件(尤其是GPU)的成本极高,这产生了一种强烈的动机,即尽可能让系统保持运行,这反过来又推动了对电力的巨大需求。”

这种需求在传统数据中心环境中表现不同,NLM光子学公司的CEO布拉德·布斯(Brad Booth)曾在微软和Meta部署AI方面经验丰富,他表示,AI通过将工作负载分布在更多系统上,重塑了计算和网络动态。

“在AI领域,有许多小功能或进程分布在大量GPU或TPU上,”他说,这种转变引入了双网络设计:一种类似于传统数据中心的横向扩展网络,以及一种通过“超高带宽通道”连接密集加速器集群的纵向扩展网络,计算吞吐量的提升和海量数据的移动同时增加了电力使用和网络需求。

即使规模较小,这也是一个挑战,Classroom365董事马克·弗兰德(Mark Friend)在英国教育领域亲眼目睹了这些压力。他说:“在伦敦的一所学院信托机构,我们不得不重新规划整个服务器机房,因为旧的UPS无法支持多个GPU密集型推理工作负载与MIS和CCTV处理并行运行时的电力需求。”他补充说,大多数学校“都没有考虑到AI硬件对电力和冷却的需求”。

在企业中,这转化为基础设施规划的根本性转变,Mission Critical Group的CEO杰夫·德里斯(Jeff Drees)表示:“随着AI工作负载的增加,电力成为新的瓶颈,而非计算能力,这些模型需要更高密度、更高可用性的电力,且电力输送速度更快、更接近机架,同时还要为模块化增长留出空间。”

尽管如此,霍恩还是从这一挑战中看到了机遇。“现代AI服务器通常采用高效的冷却方法,”他说,“这种废热可以重新用于区域供暖或农业应用,如温室。”数据中心能源的未来可能不在于减少使用,而在于更智慧地利用。


2. 网络基础设施跟不上发展步伐

随着企业加大对AI基础设施的投资,许多企业遇到了未曾预料到的限制。“当我们为AI工作负载准备好基础设施时,我们意识到瓶颈不仅在于计算能力,还在于I/O和数据管道,”艾伯森超市(Albertsons)数据分析、数据工程和数据治理技术负责人钱德拉坎特·普利古德拉(Chandrakanth Puligundla)表示。“我见过一些团队购买了昂贵的GPU,却只能闲置,因为他们要等待数据流动或预处理。”

有一次,普利古德拉的团队低估了对快速本地存储和高效数据加载的需求。“我们不得不重新设计我们的管道,以利用更靠近计算层的NVMe缓存,并将部分数据预处理工作移至上游,”他说,“这些改变对训练时间的影响比升级硬件更大。”

AI的需求与当前基础设施之间的不匹配往往延伸到网络架构本身。“老旧的数据中心网络技术根本没有针对支持超低延迟、高可靠性和可扩展性进行优化,无法满足这一AI时代前所未有的数据量、网络响应能力和安全需求。”诺基亚网络基础设施首席营销官马尼什·古利亚尼(Manish Gulyani)表示。

古利亚尼表示,许多企业正开始通过部署针对AI定制的高容量、低延迟、无损数据中心架构来解决这一问题。他说,诺基亚已与超大规模计算公司nScale和云服务提供商CoreWeave合作开发下一代互连解决方案,包括800G IP和光网络。“现在是电信行业重新思考网络设计的时候了——将可扩展性、灵活性和自动化放在首位——以防止它们成为AI战略的瓶颈。”古利亚尼说。


3. 云和混合存储是关键部分

随着AI工作负载的演变,即使是致力于本地基础设施的企业也在倾向于采用公有云和混合存储策略。Infosys美洲交付执行副总裁兼负责人阿南特·阿迪亚(Anant Adya)表示,成功的AI数据中心现代化工作包括“将工作负载转移到公有云,并采用混合存储,这些举措提高了敏捷性,降低了能源消耗和成本。”

这种本地与基于云的计算的结合不仅关乎性能,还关乎访问。对于没有庞大基础设施预算的企业来说,混合方法可能是乘上AI浪潮与被甩在后面的区别所在。Classroom365的弗兰德曾与客户合作应对这些限制。“我们帮助的许多学校,尤其是资金不足的议会下属学校,没有能力重建设备或聘请本地AI专家,”他说,“但他们并没有被排除在外。”

相反,他们发现了一个实用的模式很成功。“事实证明,对这种情况最有效的方法是混合方法,比如将繁重的工作外包给基于云的推理服务,同时保持本地基础设施精简但稳固,”弗兰德解释道,“可以把它想象成从云服务提供商那里预订GPU爆发式使用,而不是购买你无法控制的机架。”

这种方法既需要思维转变,也需要技术转变。“你不能通过购买来解决所有问题,你只需要知道在哪里接入,以及让其他人来提供动力,”弗兰德说。对于许多小型或资源不足的企业部署来说,真正的挑战不在于原始计算能力,而在于集成和连接,混合策略可能是最具通用性和包容性的前进道路。


4. 数据治理和道德监督比以往任何时候都更重要

CIO需要超越对硬件性能的关注,思考数据中心中的数据将如何成为AI应用的素材,以及这些数据使用所带来的更大监管和道德影响。

“你需要数据管道透明、模型版本控制健全以及工作流程可审计,以确保模型公平、可解释且符合新兴法规。”华威商学院信息系统助理教授什韦塔·辛格(Shweta Singh)表示。

辛格说,即使模型本身仍然是黑箱,其周围的系统也可以而且应该做到完全负责,这意味着要跟踪数据的来源、处理方式以及训练内容;保存每个模型版本的完整文档;并记录部署活动以支持可追溯性。“AI就绪的基础设施不仅关乎速度和规模,还关乎信任和问责。”她说。

建立这种信任始于强大的数据治理。“公司如何回应有关其数据清单、所有权和质量的问题,反映了其AI就绪程度。”Altum战略集团首席执行官马修·甘特纳(Matthew Gantner)表示。他建议成立一个独立的数据治理企业,不仅包括IT和业务领导者,还包括数据中心的代表。“对于拥有数据中心的公司来说,数据中心成员很可能是数据治理委员会的一部分,并将负责执行公司的数据治理政策和实践。”

Gradient AI的CEO兼创始人斯坦·史密斯(Stan Smith)强调,数据完整性和一致性是负责任的AI的基本要求。“一位客户最近分享了一个数据集,其中40%的最关键字段缺失数据或不完整——这并不罕见。”他说。如果没有高质量、管理良好的数据,即使是最先进的AI系统也可能产生有偏见、不完整或无意义的结果。


5. 你的数据中心人员配置需要技能升级

AI不仅给数据中心硬件带来了压力,也给维护这些系统运行的人员带来了压力。“由于AI计算的增长非同寻常,目前存在巨大的技能差距,我们发现人才库难以满足需求。”斯堪的纳维亚数据中心的霍恩表示。他提到了2024年Uptime Institute最近发布的《全球数据中心调查》,其中71%的受访者表示“缺乏合格员工”是一个令人担忧的问题。

这个问题既涉及传统基础设施角色,也涉及支持AI所需的新技能集。Classroom365的弗兰德在教育领域亲眼目睹了这一点。“你通常的系统管理员可能没有接触过NVIDIA Triton或用于模型生命周期管理的Kubernetes操作符。”他说。

弗兰德强调,在他的工作中,目标不是将基础设施人员变成机器学习专家,而是赋予他们正确的基础技能。“我们已对我们的团队进行了容器管理和基本模型编排的培训,以便他们能够在不感到盲目的情况下支持AI工具,”他说,“这不是为了教授深度学习,而是为了维护在接入AI工具时不会崩溃的基础设施。”

CloudX的首席商务官阿克塞尔·阿布拉菲亚(Axel Abulafia)表示,在企业部署中,技能提升必须超越一些新的技术认证。“传统基础设施角色已不再足够,”他说,“你需要既了解物理层又了解AI工作负载如何与该层交互的人员。”

阿布拉菲亚还指出了自动化和协作日益重要。“AI放大了对自动化的需求,团队需要在数据科学、DevOps和IT等领域进行跨领域协作,”他说,“在这个新环境中,领导者面临的最大挑战不仅是规划招聘,还要规划团队培训。”


6. 聪明的企业实施跨职能治理结构

当企业试图在业务中广泛运用AI时,跨领域协作变得尤为重要,最聪明的企业正通过建立专门的跨职能小组,使其数据中心与AI新时代保持一致。

“你需要基础设施、运营、客户服务、销售、数据科学、程序员、网络安全、合规、客户输入和业务领导者共同参与,”最佳实践研究所(Best Practice Institute)首席执行官兼创始人路易斯·卡特(Louis Carter)表示,“不仅要共同规划,还要共同拥有和共同创造成功。”这些AI委员会“避免了孤岛系统和影子项目——所有这些都破坏了沟通并侵蚀了公司内部的信任”。

跨职能协调的需求尤为迫切,因为AI工作负载模糊了学科之间的界限。“AI工作负载比传统工作负载更需要软件和基础设施团队之间的协作,”艾伯森超市的普利古德拉表示,“软件工程师需要了解硬件限制,而运营团队需要了解训练作业或推理服务的行为。”

普利古德拉主张使数据中心环境更易于开发人员访问,采用针对机器学习工作流程定制的可观测性工具、API和基础设施即代码实践,这种协作基础设施不仅支持当前模型,还确保了对未来任何变化的适应性。


7. 领导力和良好的规划对于转型至关重要

“让你的数据中心为AI做好准备不仅仅是关于基础设施——还关于领导力,”最佳实践研究所的卡特表示,“没有清晰度的AI将成为摆设。”

公司往往在没有明确界定目标或如何衡量成功的情况下就急于开展AI计划。“大多数公司在围绕要解决的问题、如何做出决策以及成功是什么样子对齐团队之前,就急于实施,”卡特说。根据他的经验,最有效的领导者不是从工具开始,而是从人开始——投资于文化准备、治理和变革协调。

Infosys的阿迪亚也多次看到这一点,他指出,许多AI数据中心现代化工作之所以停滞不前,是因为“低估了传统集成的复杂性,并且缺乏明确的迁移路线图”——这些失败都表明了强大规划和结构化变革管理的必要性。

同样重要的是要理解AI不是一次性的部署——而是一场持续的变革。“AI工作负载需要持续的迭代和人为干预,”卡特说,“这意味着IT团队必须更像产品团队——快速循环、冲刺、持续学习、将技术与业务价值联系起来、与客户保持紧密联系。”

他补充说,作为领导者,“高管们必须创造时间和空间来教育和指导更广泛的企业——不仅关于技术,还关于它如何改变工作流程和决策,透明度是关键,人们害怕他们不理解的东西。”帮助你的员工了解AI的新世界,可能是你为数据中心未来做好准备的最重要的事情。


版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

最新文章