AI芯片与未来:DPU、GPU、NPU、ASIC和FPGA

目前用于深度学习最广泛的芯片当属擅长并行计算的 GPU,而随着深度学习对算力要求的不断提升,各家公司开始研发生产专用于深度学习、DNN 的运算芯片或基于 FPGA 架构的半定制芯片,代表产品有 Google 研发的张量计算处理器 TPU、寒武纪研发的神经网络计算处理器 NPU 以及 Intel 旗下的 Altera Stratix V FPGA。目前各类芯片各有优劣,未来或将出现GPU、FPGA、“XPU”分别对应不同算力要求、产品结构的运算芯片市场。

当前市场上主要有通用类(GPU、DPU)、FPGA(半定制)、ASIC(全定制)三大类 AI 计算芯片。其中 GPU 目前市场使用率最高,商业化较为成熟。而以 FPGA 和 ASIC 架构研发出的 AI 芯片种类较多,目前尚处于发展探索阶段,例如较为知名的 NPU、TPU 就是以 ASIC 架构为基础设计的。


1. GPU:通用性最强,AI 计算时代霸主

GPU,源于图形处理的 AI 计算芯片。GPU(Graphics Processing Unit),即图形处理器,又称显示核心、视觉处理器、显示芯片,起初是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器,是一种由大量运算单元组成的大规模并行计算架构,专为同时处理多重任务而设计。大数据时代,GPU 被广泛应用于数据中心、矿机、深度学习等领域。GPU 芯片采用统一渲染架构,计算通用性最强,可以适用于多种算法,在算法尚未定型的领域,GPU是最佳选择。

GPU 在 AI 计算市场销售额占比最大,霸主地位稳固。目前大多数领域,AI 计算算法尚在不断探索、优化阶段,GPU 仍是最佳选择。根据智研咨询数据显示,截至 2021年 8 月,全球人工智能的计算力主要是以 GPU 芯片为主,2020 年销售额市场份额占比约为 42.3%,市场规模约为 38 亿美元,预测到 2024 年销售额占比提升至 51.4%,届时全球人工智能 GPU 芯片市场规模将达 111 亿美元。


2. FPGA:半定制芯片,灵活性高

FPGA 是一种半定制芯片。FPGA(Field-Programmable Gate Array),现场可编程门阵列,用户可以根据自身的需求进行重复编程。FPGA 的优点是既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点,对芯片硬件层可以灵活编译,功耗小于 CPU、GPU;缺点是硬件编程语言较难,开发门槛较高,芯片成本、价格较高。FPGA 比 GPU、CPU 更快是因为其具有定制化的结构。

CPU 和 GPU 都属于冯·诺依曼结构,在该结构中,执行单元可以执行任意指令,这需要有指令存储器、译码器、各种指令的运算器等和共享内存。而 FPGA 的每个逻辑单元的功能在重编程时就已经确定,不需要指令和共享内存。但这也是 FPGA 的缺点,当处理的任务重复性不强、逻辑较为复杂时,FPGA 效率就会低于使用冯·诺依曼结构的处理器。


3. ASIC:专用性最强,追求极致性能

ASIC 是一种为专门目的而设计的芯片(全定制)。ASIC特殊应用集成电路芯片,是一种根据特定算法定制的芯片架构,其定制程度相比于 GPU 和 FPGA 更高。ASIC 算力水平一般高于 CPU、GPU、FPGA,但初始投入大,专业性强缩减了其通用性,算法一旦改变,计算能力会大幅下降,需要重新定制。

算力需求增加,ASIC 前景广阔。随着数据量的不断增加和芯片工艺的极限到来,对算力的诉求越来越难以被满足。在此背景下,对于一些特定的领域,其数据量庞大,算法逐渐固定,使用专为特定算法设计的 ASIC 芯片成为了许多公司的首选。AI 计算市场上比较火的 TPU、NPU 等,都是 ASIC 专用芯片。


4. DPU:GPU 之后分担 CPU 算力又一芯片

DPU 是一个全新的,用于在数据中心承担网络和存储等服务的处理器。DPU(Data Processing Unit),数据中心处理器是最新发展起来的专用处理器,主要是用来加速数据中心的安全、网络和存储任务。它是继 CPU,GPU 之后,数据中心场景中的第三颗重要的算力芯片,为高带宽、低延迟、数据密集的计算场景提供计算引擎。DPU 将卸载 CPU原本承担的网络、存储、安全、管理等服务,释放 CPU 算力,同时对安全隐私进行高级别的加密。在 2021 年 4 月的 GTC 大会上,英伟达总裁黄仁勋推出了 NVIDIA BlueField-3 DPU 及其配套软件生态架构 DOCA。

DPU 的提出能够有效解决 CPU 和 Memory 之间传输带宽的瓶颈。随着数据量的增加,CPU 和 Memory 之间的数据传输带宽成了瓶颈。根据 Fungible 和 AWS 的统计,在大型数据中心中,流量处理占到了计算的 30%左右。数据中心在节点间交换效率和可靠性以及节点内 I/O 切换效率比较低,DPU 的出现是为了试图解决这种松耦合的关系,从这方面加快整体运算速度。目前来看 DPU 只是提供更安全高效的网络、存储等加速服务,但未来或将真正的以数据中心为运算单元,依靠 DPU 实现紧耦合结构提升整体效率。


5. NPU 和 TPU:深度学习 ASIC 加速芯片

NPU 是一种参考人体神经突触的 ASIC 芯片。随着深度学习神经网络的兴起,CPU和 GPU 逐渐难以满足深度学习的需要,专门用于神经网络深度学习的处理器NPU(Neural Processing Unit)应运而生。NPU 采用“数据驱动并行计算”的架构,特别擅长处理视频、图像类的海量多媒体数据。区别于 CPU 以及 GPU 所遵循的冯诺依曼架构,NPU 参考人体的神经突触结构,将存储与运算结为一体。

NPU 显著提高了深度学习芯片的运算速度。深度学习芯片主要分为训练芯片和推理芯片。深度学习神经网络算法像人一样,需要学习知识(训练),之后就可以把学习到的知识运用到工作中去(推理)。训练过程需要大量的数据样本进行计算,而推理过程需要用少数的数据快速得出推理结果。NPU 在电路层模拟人类神经元和突触,相比于 GPU的冯诺依曼结构,NPU 通过突触权重实现存储计算一体化,提高运行效率,因此 NPU比 GPU 更擅长推理。

TPU,专门为 Google Tensorflow 框架设计的 ASIC 芯片。张量处理器(Tensor Processing Unit)是 Google 为机器学习定制的 ASIC 芯片,专为 Google 的深度学习框架TensorFlow 而设计。Google 在 2016 年的 Google I/O 年会上首次公布了 TPU,不过在此之前 TPU 已在 Google 内部的一些项目中使用了一年多,如 Google 街景服务、RankBrain以及其旗下 DeepMind 公司的围棋软件 AlphaGo 等都用到了 TPU。TPU 只完成推理过程,训练过程由 GPU 完成。


新计算模式不断出现,底层架构持续创新

AI 计算蓬勃发展,新计算模式不断出现。随着各大厂商对 AI 芯片的不断研究,芯片的计算性能不断提升,芯片种类不断增多。截至 2021 年 8 月,GPU 在 AI 计算市场份额最大,但 FPGA、ASIC 的发展迅速,有望取代一部分 GPU 的业务。与此同时,DPU的不断运用也将有效改善和加速网络数据传输计算速度,协同 CPU、GPU 高效运行。

当前 CPU 依然处于计算芯片中的核心地位,GPU、DPU 目前也只能卸载 CPU 部分功能,加快 CPU 处理、运算的效率,并没有根本动摇 CPU 地位。目前在人工智能、深度学习和云计算等领域以 CPU+GPU 为主要场景,CPU+FPGA、CPU+NPU 等模式不断推出,未来有望出现更先进的模式。


本文转自:智能计算芯世界 ,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。

最新文章