为能效重塑AI架构

本文编译自Semiconductor Engineering


行业对人工智能的能耗问题日益关注,但这个问题并没有简单的解决方案。它需要深入理解具体应用场景、半导体与系统层面的软硬件架构,以及所有这些元素的设计与实现方式。每个环节都会影响整体能耗和所提供的效用,而这两者之间的平衡是必须做出的终极权衡。

但首先,必须解决电力的效用问题。电力是否被浪费了?“我们消耗能源是为了产生有价值的东西,”Ansys(现已被新思科技收购)产品营销总监Marc Swinnen表示,“这并非浪费。这是电力的一种工业应用,就像钢铁和铜产业一样,只是另一个行业而已。”

在许多情况下,这种电力消耗可以通过显著的节能效果来抵消。“农民使用人工智能来操作自动拖拉机进行耕作,”Microchip高级产品营销经理Diptesh Nandi表示,“他们在喷洒农药和化肥时使用人工智能进行推理。这不仅节省了时间,还减少了化学品的使用量。生产这些化学品需要电力,因此使用人工智能反而可以节省电力。我们已经看到,人工智能驱动的边缘设备蓬勃发展,尤其是在农业领域。”

在今年的DAC大会上,一些学者声称,在降低功耗方面,那些济简单的改进措施已用尽。“这种说法存在片面性,”新思科技系统设计部战略项目执行总监弗兰克・席尔迈斯特表示,“我们距离实现全面优化还差得很远。此外,应用需求增长如此之快,以至于在能耗控制方面很难跟上步伐。问题或许在于‘如何实现最低能耗的方案?’网络片上(NoC)的影响、芯粒分区的影响、特定工作负载架构的影响,以及对更高性能的追求所带来的影响,这些都需要与能耗进行权衡。”

有人将计算机的功耗与自然功耗进行比较。“以玄凤鹦鹉为例,它的大脑仅消耗 20 瓦能量,却能飞行、模仿词语、对周围环境进行复杂的视觉理解、进行三维空间计算并在树木间穿梭,”Cadence计算解决方案事业部产品营销总监Jason Lawley表示,“从这个角度来看,很多事情都是可能的。只是我们需要多久才能达到这样的水平。我认为人工智能不会永远沿着同一条路径发展,未来还会有其他创新和发明让我们继续前进,比如神经形态计算。”

许多头条新闻中的数据都与数据中心的训练过程有关,但从长远来看,这可能是错误的关注点。“传统上,训练过程因海量数据集和漫长周期而主导着我们的计算需求,”Normal Computing高级AI工程师Doyun Kim表示,“如今,我们看到测试时计算技术发生了根本性的转变,模型执行多步推理的思路链、思路树和代理工作流,每个查询都会触发数十次推理操作,其功耗现在可与训练强度相媲美。对于芯片设计师和数据中心运营商来说,这代表着一个重大转变。推理正成为首要的功耗考虑因素。但我们如何应对这一功耗挑战呢?”

这可能会迫使设计团队更加节约用电。Cadence的Lawley表示:“边缘AI的功耗会增加,但它将更多地依靠电池供电。它将更加分散地融入我们的日常生活。相对而言,这些电池所能提供的电量与数据中心的能耗相比要少得多,而用户会要求更长的电池续航时间。”


顶层

如果我们假设人工智能能提供价值,那么就可以从等式的另一端来审视问题。“现有的电网并非为人工智能而建,无法应对其能耗,”Ansys总监Rich Goldman表示,“升级基础设施将耗费大量时间和成本。我们必须考虑本地能源创造,而不是试图将能源从生产地输送到需求地。小型核反应堆的时代即将到来。”

还有其他非碳排放的方式可以产生必要的电力。“好处是,数据中心可以建在任何有电的地方,”Ansys的Swinnen补充道,“如撒哈拉沙漠,那里土地充足,阳光充足,可以建造太阳能发电场。人工智能的魅力在于,只需在那里铺设一条光纤电缆,就能实现数据的输入输出,无需大量基础设施。也不需要港口和道路。”

虽然这解决了数据中心的问题,但也必须考虑边缘计算。“在运行大语言模型(LLM)时,设备边缘AI的执行仍然是一个极其耗能的过程,”Normal Computing高级AI工程师Maxim Khomiakov表示,“高效地控制模型输出是一个巨大的挑战。暴力破解式的解决方案非常耗能。已知的技术之一是生成许多输出轨迹,同步筛选出有用部分,从而优化提示和答案。从长远来看,出路在于构建针对LLM和推理密集型工作负载优化的ASIC芯片。推理需求正在飙升,其成本已逐渐接近训练成本。”

边缘设备的自主性正在不断发展。Microchip的Nandi表示:“使用边缘AI的客户的主要需求是降低延迟。将数据发送到数据中心并获取响应,既耗时又耗能。一种解决方案是在将数据发送到数据中心之前,先在边缘执行一些计算。”


模型演进边缘计算

模型规模持续扩大。“这些大语言模型的变化速度持续上升,这直接增加了训练过程的能耗,”Lawley表示,“观察它们何时达到收益递减的临界点将会很有趣,但目前看来,它们还远未达到这个临界点。人们不断向模型输入更多数据,也确实得到了更优的结果。在初始数据集的处理上,他们采用了各种优化技术,此外还有二次训练及其他形式的训练用于这些大语言模型的构建。”

目前的目标似乎是创建更大、更统一的模型。“首先可以优化的是模型本身,”新思科技的Schirrmeister表示,“通过使模型更贴合具体需求,可以获得很多好处。让模型与应用场景高度适配,就能对其进行更有效的约束。那些运行在模型上、消耗大量能源的应用正变得愈发优化,逐渐摆脱了泛化的属性。”

这可能会让事情朝着不同的方向发展。“正如芯片行业引入多电压域、时钟门控和电源门控来节省功耗一样,我们可以将类似的概念应用于人工智能系统,”Normal的Kim表示,“例如专家混合(MoE)架构避免了所有模块同时运行,我们可以让人工智能系统更具模块化特性。通过实时预测所需模块,并像工作负载预测那样动态激活仅需的组件,借助智能的系统级电源管理,我们有望实现显著的节能效果。”

一些优化需要协同设计。Expedera软件工程总监Prem Theivendran表示:“软件堆栈有很多改进空间,例如运算符融合、布局转换和编译器感知调度等。这些改进可以释放潜在的硬件效率,但前提是硬件能够发挥这些潜力。这需要硬件功能和软件优化之间的密切协调。当模型、编译器和硬件协同优化时,即使在已经非常高效的加速器上,也能获得显著的收益。”

边缘计算拥有更多机遇。“量化是必须做好的关键环节之一,”Lawley表示,“我们看到人们正在朝着两个方向发展。一是采用更小的位宽。虽然目前许多人都在使用Int8,但Int4,有时甚至是Int1也在考虑之中。Int1可以减少存储空间、带宽和计算量,而这三个方面是功耗的主要来源。我们看到越来越多关于混合量化模式的研究,其中一些层可能以FP16运行,因为它们非常重要,而其他层则以Int4运行。此外,我们也看到人们从整数回归浮点,甚至使用FP16和FP8,因为他们发现,在使用8位或16位非线性模型时,浮点数会获得更好的结果,其粒度也更精细。”


设计更好的硬件

主要有两种方法。第一种是设计更适合执行AI工作负载的架构,第二种是提高现有架构的效率。“工程设计始终是一个抽象问题,从这个角度来看,这是一种权衡,因为在整个设计层级中,你永远无法实现完全的优化,”Fraunhofer IIS自适应系统工程部高级混合信号自动化部门经理Benjamin Prautsch表示。

流程中的每个环节都可以节省能源,但也可能造成浪费。Cadence数字与签核事业部产品管理总监Jeff Roane表示:“虽然降低功耗看似简单——只需最小化公式P=fCv²中的项——但功耗、性能和面积(PPA)之间的固有权衡使其变得复杂。由于难以测量和优化的故障功耗,这些复杂性在AI芯片数学函数中成倍增加。因此,必须在每个设计抽象级别进行由准确分析驱动的有效优化,其中架构级优化可提供最大的降幅,高达50%;寄存器传输级(RTL)可达20%;而从门级到物理实现级则可达10%。”

在每个设计步骤中,了解工作负载至关重要。“功耗主要由动态功耗决定,而动态功耗高度依赖于矢量,”新思科技研究员Godwin Maben表示,“人工智能特定工作负载的定义非常明确,因此生成工作负载并非问题。功耗主要取决于从计算到内存再到内存的数据移动。拥有节能的总线架构至关重要,甚至诸如压缩进出内存的数据之类的架构决策也至关重要。功耗降低具有可扩展性。由于同一计算单元的实例重复运行数千次,因此优化一个单元将显著降低整体功耗。”

在所有讨论中,数据移动始终是功耗问题的核心。“人工智能工作负载涉及在计算单元、内存和加速器之间传输大量数据,”Arteris公司产品管理与营销副总裁Andy Nightingale表示,“为了降低每次推理的功耗,就需要考虑本地化通信。与长距离传输相比,分块处理或空间聚类技术更受青睐。我们预见,巧妙的互连设计将成为SoC架构师扭转AI功耗曲线的最重要手段。”

处理器的其他部分对工作负载的依赖程度较低。“如果回顾过去,矩阵乘法是贯穿整个人工智能领域的唯一不变的东西,”Lawley表示,“这部分其实并没有改变。变化的是量化方式、激活函数、带宽以及人们对不同层级的排列方式。但矩阵乘法的功能是不变的。我们确保拥有非常强大的矩阵乘法解决方案,同时,在激活函数等方面的工作也拥有更高的可编程性。”

关于更重要的架构变革研究仍在继续。“关于内存计算的讨论尚未结束,”Schirrmeister表示,“它有助于提升性能和降低功耗,因为无需跨边界传输数据,也不必为了计算而移动数据。这些都是尚未被充分利用的领域。还有人在认真考虑神经形态计算。我认为我们无需只困守冯・诺依曼架构。”


EDA的作用

EDA主要通过两种方式帮助降低AI功耗。首先是提供决策所需的信息。其次是提供工具,以实现高效的实施和优化。Expedera的Theivendran表示:“EDA可以将过去的猜测转化为数据驱动的设计,从而塑造AI架构。通过设计空间探索、工作负载分析和AI辅助调优,EDA可以帮助架构师构建不仅功能齐全,而且能够完美适应实际AI工作负载的硬件。”

左移在系统层面的真正意义愈发明显。“我们如今已不能只考虑芯片级优化,还需涵盖从封装、电路板到机架的整个技术栈,”Kim表示,“尤为重要的是具备工作负载感知的系统设计。不同的AI工作负载——无论是训练、推理,还是这些新的测试时计算模式——都有着截然不同的功耗和散热特性。EDA工具需要不断发展,以帮助我们根据实际工作负载特性分析和优化全系统交互。”

硬件架构的快速迭代使得更多方案纳入考量。“EDA需要整合高级的、具有物理感知能力的规划工具,”Arteris的Nightingale表示,“自动化必须支持拓扑和布局的快速迭代,并模拟功耗与性能之间的权衡。基于AI的设计空间探索也有助于实现最佳的分区、布线和资源布局。”


结语

人工智能的功耗问题已敲响警钟。但这与其他行业的兴起并无二致。关键在于我们如何应对:是创造更多清洁能源,还是通过某种方式降低能耗?跳出半导体的舒适区进行设计能否带来更好的结果,抑或会阻碍收益的实现速度?有人能完全理解自己所做决策的影响吗?

解决方案需要众多利益相关者的共同努力,这在过去非常困难。如今,软件开发的速度远远超过了硬件的响应速度,一些人希望人工智能能够加快这一速度。


本文转自:TechSugar,编译自Semiconductor Engineering,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。

最新文章